OpenAI’dan sesli yapay zeka hamlesi

Bilim-Teknoloji (Web Sitesi) - Web Sitesi | 09.05.2026 - 16:15, Güncelleme: 09.05.2026 - 16:15
 

OpenAI’dan sesli yapay zeka hamlesi

OpenAI, geliştiricilerin sesli uygulamalar oluşturmasını kolaylaştıracak üç yeni ses modelini duyurdu. Yeni sistemler konuşma, çeviri ve sesin yazıya dökülmesi işlemlerini gerçek zamanlı gerçekleştirebiliyor.
OpenAI, API tarafında üç yeni ses modelini kullanıma sundu. Şirket, yeni modellerle birlikte sesli yapay zekâ deneyimini günlük yazılım kullanımının daha doğal bir parçası haline getirmeyi hedefliyor. Tanıtılan modeller; GPT-Realtime-2, GPT-Realtime-Translate ve GPT-Realtime-Whisper oldu. Şirket, sesin artık yazıya göre daha doğal bir etkileşim yöntemi haline geldiğini belirterek yeni sistemlerin bu anlayışla geliştirildiğini açıkladı. Modellerin; araç kullanırken sesli komut verme, havaalanlarında yön bulma ve müşteri hizmetlerinde yazışmadan iletişim kurma gibi alanlarda kullanılması planlanıyor. GPT-REALTIME-2 ÖNE ÇIKIYOR Yeni serinin en güçlü modeli olarak tanıtılan GPT-Realtime-2, OpenAI tarafından “GPT-5 seviyesinde mantık kurabilen ilk ses modeli” olarak tanımlandı. Modelin, karmaşık soruları çözebildiği, konuşma sırasında yaşanan bölünmelere uyum sağlayabildiği ve sohbet akışını kesmeden devam ettirebildiği belirtildi. Ayrıca sistemin konuşma sırasında takvim kontrolü yapma, arama gerçekleştirme ve sistem içi verilere erişme gibi işlemleri de yerine getirebildiği ifade edildi. Bağlam penceresinin 32K’dan 128K’ya çıkarılmasıyla birlikte daha uzun konuşmaların daha az kopmayla sürdürülebileceği aktarıldı. OpenAI’nin paylaştığı verilere göre model, Big Bench Audio testinde yüzde 15,2, talimat takip testlerinde ise yüzde 13,8 daha iyi performans gösterdi. CANLI ÇEVİRİ VE ANLIK TRANSKRİPSİYON GPT-Realtime-Translate modeli ise konuşmaları anlık olarak çevirebiliyor. Sistem, 70’ten fazla dili algılarken 13 dile eş zamanlı çeviri yapabiliyor. Özellikle müşteri hizmetleri, seyahat ve çok dilli iletişim sistemlerinde kullanılması hedefleniyor. Deutsche Telekom’un da sistemi müşteri destek hatlarına entegre etmeye hazırlandığı belirtildi. Üçüncü model olan GPT-Realtime-Whisper ise canlı konuşmaları eş zamanlı olarak yazıya döküyor. Sistem, konuşma devam ederken anlık transkripsiyon oluşturabiliyor. OpenAI, yeni modellerle hedefinin yalnızca konuşan bir asistan geliştirmek olmadığını; dinleyen, anlayan, çeviren, yazıya döken ve işlem yapabilen bütünleşik bir yapay zekâ sistemi oluşturmak olduğunu vurguladı.
OpenAI, geliştiricilerin sesli uygulamalar oluşturmasını kolaylaştıracak üç yeni ses modelini duyurdu. Yeni sistemler konuşma, çeviri ve sesin yazıya dökülmesi işlemlerini gerçek zamanlı gerçekleştirebiliyor.

OpenAI, API tarafında üç yeni ses modelini kullanıma sundu. Şirket, yeni modellerle birlikte sesli yapay zekâ deneyimini günlük yazılım kullanımının daha doğal bir parçası haline getirmeyi hedefliyor.

Tanıtılan modeller; GPT-Realtime-2, GPT-Realtime-Translate ve GPT-Realtime-Whisper oldu. Şirket, sesin artık yazıya göre daha doğal bir etkileşim yöntemi haline geldiğini belirterek yeni sistemlerin bu anlayışla geliştirildiğini açıkladı. Modellerin; araç kullanırken sesli komut verme, havaalanlarında yön bulma ve müşteri hizmetlerinde yazışmadan iletişim kurma gibi alanlarda kullanılması planlanıyor.

GPT-REALTIME-2 ÖNE ÇIKIYOR

Yeni serinin en güçlü modeli olarak tanıtılan GPT-Realtime-2, OpenAI tarafından “GPT-5 seviyesinde mantık kurabilen ilk ses modeli” olarak tanımlandı. Modelin, karmaşık soruları çözebildiği, konuşma sırasında yaşanan bölünmelere uyum sağlayabildiği ve sohbet akışını kesmeden devam ettirebildiği belirtildi. Ayrıca sistemin konuşma sırasında takvim kontrolü yapma, arama gerçekleştirme ve sistem içi verilere erişme gibi işlemleri de yerine getirebildiği ifade edildi.

Bağlam penceresinin 32K’dan 128K’ya çıkarılmasıyla birlikte daha uzun konuşmaların daha az kopmayla sürdürülebileceği aktarıldı. OpenAI’nin paylaştığı verilere göre model, Big Bench Audio testinde yüzde 15,2, talimat takip testlerinde ise yüzde 13,8 daha iyi performans gösterdi.

CANLI ÇEVİRİ VE ANLIK TRANSKRİPSİYON

GPT-Realtime-Translate modeli ise konuşmaları anlık olarak çevirebiliyor. Sistem, 70’ten fazla dili algılarken 13 dile eş zamanlı çeviri yapabiliyor. Özellikle müşteri hizmetleri, seyahat ve çok dilli iletişim sistemlerinde kullanılması hedefleniyor. Deutsche Telekom’un da sistemi müşteri destek hatlarına entegre etmeye hazırlandığı belirtildi.

Üçüncü model olan GPT-Realtime-Whisper ise canlı konuşmaları eş zamanlı olarak yazıya döküyor. Sistem, konuşma devam ederken anlık transkripsiyon oluşturabiliyor. OpenAI, yeni modellerle hedefinin yalnızca konuşan bir asistan geliştirmek olmadığını; dinleyen, anlayan, çeviren, yazıya döken ve işlem yapabilen bütünleşik bir yapay zekâ sistemi oluşturmak olduğunu vurguladı.

Habere ifade bırak !
Habere ait etiket tanımlanmamış.
Okuyucu Yorumları (0)

Yorumunuz başarıyla alındı, inceleme ardından en kısa sürede yayına alınacaktır.

Yorum yazarak Topluluk Kuralları’nı kabul etmiş bulunuyor ve sariyersoz.com.tr sitesine yaptığınız yorumunuzla ilgili doğrudan veya dolaylı tüm sorumluluğu tek başınıza üstleniyorsunuz. Yazılan tüm yorumlardan site yönetimi hiçbir şekilde sorumlu tutulamaz.
Sitemizden en iyi şekilde faydalanabilmeniz için çerezler kullanılmaktadır, sitemizi kullanarak çerezleri kabul etmiş saylırsınız.