Cuando se lanzó en mayo, el modelo insignia de OpenAI, GPT-4o ("o" representa "omni"), llamó la atención por su capacidad de comprensión de audio. El modelo GPT-4o puede responder a las entradas de audio a una velocidad promedio de 320 milisegundos, similar al tiempo de respuesta de un humano en una conversación típica.
OpenAI también anunció que la función de modo de voz de ChatGPT utilizará las capacidades de audio del modelo GPT-4o para brindar a los usuarios una experiencia de conversación de voz fluida. Sobre la capacidad de voz de GPT-4o, el equipo de OpenAI escribió:
"Con GPT-4o, entrenamos un nuevo modelo que entrena de forma integral tres modalidades: texto, visual y audio. Es decir, todas las entradas y salidas son procesadas por la misma red neuronal. Como GPT-4o es nuestro primer modelo que combina todas estas modalidades, todavía estamos explorando sus posibilidades y limitaciones."
En junio, OpenAI anunció planes para lanzar una versión alfa de su modo de voz avanzado a un pequeño grupo de usuarios de ChatGPT Plus más tarde, pero el plan se retrasó un mes debido a la necesidad de mejorar la capacidad del modelo para detectar y rechazar ciertos contenidos. Además, OpenAI estaba preparando su infraestructura para escalar a millones de usuarios mientras mantenía una respuesta en tiempo real.
Ahora, el CEO de OpenAI, Sam Altman, ha confirmado a través de X que la versión alfa del modo de voz comenzará a implementarse para los suscriptores de ChatGPT Plus la próxima semana.
El modo de voz actual de ChatGPT no es intuitivo debido a una latencia promedio de 2.8 segundos (GPT3.5) y 5.4 segundos (GPT-4). El próximo modo de voz avanzado basado en GPT-4o permitirá a los suscriptores de ChatGPT tener conversaciones fluidas sin retrasos.
Además, OpenAI también lanzó hoy el esperado SearchGPT, su nuevo intento de mejorar la experiencia de búsqueda en la web. Actualmente, SearchGPT es un prototipo que ofrece capacidades de búsqueda con inteligencia artificial, proporcionando respuestas precisas y rápidas de fuentes claras y relevantes. Puedes obtener más información aquí.
Puntos clave:
- Los suscriptores de ChatGPT Plus obtendrán una nueva función de modo de voz la próxima semana, con una experiencia de conversación fluida sin retrasos.
- El modelo GPT-4o combina el entrenamiento de tres modalidades: texto, visual y audio, lo que permite a OpenAI explorar más su potencial y limitaciones.
- OpenAI también lanzó SearchGPT, que ofrece una función de búsqueda de inteligencia artificial rápida y precisa.