OpenAI’dan sesli yapay zeka hamlesi
OpenAI’dan sesli yapay zeka hamlesi
OpenAI, geliştiricilerin sesli uygulamalar oluşturmasını kolaylaştıracak üç yeni ses modelini duyurdu. Yeni sistemler konuşma, çeviri ve sesin yazıya dökülmesi işlemlerini gerçek zamanlı gerçekleştirebiliyor.
OpenAI, API tarafında üç yeni ses modelini kullanıma sundu. Şirket, yeni modellerle birlikte sesli yapay zekâ deneyimini günlük yazılım kullanımının daha doğal bir parçası haline getirmeyi hedefliyor.
Tanıtılan modeller; GPT-Realtime-2, GPT-Realtime-Translate ve GPT-Realtime-Whisper oldu. Şirket, sesin artık yazıya göre daha doğal bir etkileşim yöntemi haline geldiğini belirterek yeni sistemlerin bu anlayışla geliştirildiğini açıkladı. Modellerin; araç kullanırken sesli komut verme, havaalanlarında yön bulma ve müşteri hizmetlerinde yazışmadan iletişim kurma gibi alanlarda kullanılması planlanıyor.
GPT-REALTIME-2 ÖNE ÇIKIYOR
Yeni serinin en güçlü modeli olarak tanıtılan GPT-Realtime-2, OpenAI tarafından “GPT-5 seviyesinde mantık kurabilen ilk ses modeli” olarak tanımlandı. Modelin, karmaşık soruları çözebildiği, konuşma sırasında yaşanan bölünmelere uyum sağlayabildiği ve sohbet akışını kesmeden devam ettirebildiği belirtildi. Ayrıca sistemin konuşma sırasında takvim kontrolü yapma, arama gerçekleştirme ve sistem içi verilere erişme gibi işlemleri de yerine getirebildiği ifade edildi.
Bağlam penceresinin 32K’dan 128K’ya çıkarılmasıyla birlikte daha uzun konuşmaların daha az kopmayla sürdürülebileceği aktarıldı. OpenAI’nin paylaştığı verilere göre model, Big Bench Audio testinde yüzde 15,2, talimat takip testlerinde ise yüzde 13,8 daha iyi performans gösterdi.

CANLI ÇEVİRİ VE ANLIK TRANSKRİPSİYON
GPT-Realtime-Translate modeli ise konuşmaları anlık olarak çevirebiliyor. Sistem, 70’ten fazla dili algılarken 13 dile eş zamanlı çeviri yapabiliyor. Özellikle müşteri hizmetleri, seyahat ve çok dilli iletişim sistemlerinde kullanılması hedefleniyor. Deutsche Telekom’un da sistemi müşteri destek hatlarına entegre etmeye hazırlandığı belirtildi.
Üçüncü model olan GPT-Realtime-Whisper ise canlı konuşmaları eş zamanlı olarak yazıya döküyor. Sistem, konuşma devam ederken anlık transkripsiyon oluşturabiliyor. OpenAI, yeni modellerle hedefinin yalnızca konuşan bir asistan geliştirmek olmadığını; dinleyen, anlayan, çeviren, yazıya döken ve işlem yapabilen bütünleşik bir yapay zekâ sistemi oluşturmak olduğunu vurguladı.
Yorumunuz başarıyla alındı, inceleme ardından en kısa sürede yayına alınacaktır.



