La escena de la película de ciencia ficción "Her" parece estar haciéndose realidad. La función de voz de GPT-4o finalmente ha comenzado su prueba beta, y algunos usuarios de ChatGPT Plus ya han tenido la oportunidad de experimentar esta emocionante nueva función. Esta innovación de OpenAI no solo permite que la IA cuente chistes, imite maullidos de gato, sino que incluso puede funcionar como un "entrenador de segundo idioma" para ayudar a practicar la conversación.

El modo de voz de GPT-4o ofrece una experiencia de conversación más natural y en tiempo real. Los usuarios pueden interrumpir a la IA cuando quieran, e incluso puede percibir y responder a las emociones del usuario. Se espera que todos los usuarios de ChatGPT Plus puedan usar esta función en otoño. Aún más emocionante es que las funciones de video y compartir pantalla se lanzarán próximamente, lo que permitirá a los usuarios tener una interacción "cara a cara" con ChatGPT.

image.png

La capacidad de salida de GPT-4o también ha mejorado significativamente. La cantidad de tokens de salida del nuevo modelo ha aumentado de 4000 a 64000, lo que significa que se puede obtener el contenido equivalente a cuatro guiones completos de largometrajes de una sola vez. OpenAI ha lanzado silenciosamente este nuevo modelo beta gpt-4o-64k-output-alpha en su página web oficial.

Para garantizar la seguridad y la calidad, OpenAI ha estado realizando pruebas rigurosas de la función de voz de GPT-4o durante los últimos meses. Han colaborado con más de 100 profesionales de "red teaming" para probar 45 idiomas y han entrenado al modelo para que solo use 4 voces preestablecidas, con el fin de proteger la privacidad del usuario. Además, el filtrado de contenido es esencial, y el equipo ha tomado medidas para evitar la generación de contenido violento y con derechos de autor.

Los resultados de las pruebas reales del modo de voz de GPT-4o por parte de los usuarios son impresionantes. Algunos han descubierto que puede responder preguntas rápidamente, casi sin demora; otros lo han utilizado para imitar diferentes voces y acentos; y otros lo han hecho funcionar como comentarista de partidos de fútbol, incluso contando historias vívidas en chino. Estos casos demuestran la poderosa capacidad de GPT-4o en el reconocimiento y la generación de voz.

Cabe mencionar que, aunque OpenAI afirma que las funciones de video y compartir pantalla se lanzarán más tarde, algunos usuarios ya han tenido acceso anticipado a estas funciones. Por ejemplo, un usuario le mostró a ChatGPT la casita que había preparado para su nuevo gatito, y ChatGPT, después de verla, comentó que "seguramente sería muy cómoda" y preguntó con interés por el estado del gato.

Además, la función de salida larga de GPT-4o también se ha lanzado silenciosamente. OpenAI anunció oficialmente que proporcionará a los probadores la versión alfa de GPT-4o, con un soporte de hasta 64K tokens por solicitud, equivalente a 200 páginas de novela. El lanzamiento de esta función se basa en la demanda de los usuarios de contenido de salida más largo.

Sin embargo, una salida más larga también significa una mayor capacidad de cálculo y un precio más alto. El precio de GPT-4o Long Output es de 6 dólares por millón de tokens de entrada y 18 dólares por millón de tokens de salida, lo que representa un aumento con respecto a los modelos anteriores. A pesar de ello, algunos investigadores consideran que la salida larga se utiliza principalmente en casos de uso como la conversión de datos, y que es muy útil para la codificación, la mejora de la escritura, etc.

En general, la función de voz y la capacidad de salida larga de GPT-4o sin duda ofrecerán a los usuarios una experiencia de interacción más rica y conveniente. Tenemos razones para creer que, a medida que la tecnología siga avanzando, la IA mostrará su valor único en más campos.