"Puede responder a entradas de audio en tan solo 232 milisegundos, con un promedio de 320 milisegundos, lo que es similar al tiempo humano de respuesta en una conversación", según OpenAI.
Como una charla entre dos personas
Si bien la llamada GPT-4 Turbo, considerada la versión líder y más potente de OpenAI, podía analizar imágenes y texto, GPT-4 Omni mejora enormemente la experiencia al añadir procesamiento de voz.
En este sentido, es posible conversar con el modelo e incluso interrumpirlo mientras responde, como podría suceder en una charla entre dos personas. Se comunica en un lenguaje natural y comprensible, es capaz de captar matices de voz del usuario, 'lee' las emociones y transmite la entonación pertinente.
Entre sus novedades destaca también su multilingüismo, pues ofrece un rendimiento mejorado en una gran cantidad de idiomas —alrededor de 50— distintos del inglés. Así, GPT-4o podría traducir una conversación en tiempo real de un idioma a otro, lo que permitiría a dos personas de distinta lengua conversar de manera más natural, explica el portal Xataka.
Ya está disponible
Este nuevo modelo está disponible a partir de hoy tanto a nivel gratuito como para sus usuarios de pago, estos últimos con algunos beneficios extra en cuanto a límites de uso. No obstante, por el momento solo aporta sus capacidades de texto e imagen. OpenIA asegura que el "modo voz" será lanzado en las próximas semanas, aunque únicamente dentro de su plan ChatGPT Plus.
Cabe señalar que la empresa lanzó, además, una aplicación de escritorio de ChatGPT para macOS, a través de la cual será posible hacer preguntas sobre lo que se ve en pantalla, desde un atajo de teclado. Los usuarios de ChatGPT Plus tiene desde hoy acceso a la aplicación. Una versión para Windows llegará en los próximos meses.
(Vía RT)