¡Confirmado! El modo de voz avanzado de ChatGPT se lanzará la próxima semana para los suscriptores de ChatGPT Plus

AIbase基地

Publicado elNoticias de IA · 5 minutos de lectura · Jul 26, 2024

257

Cuando se lanzó en mayo, el modelo insignia de OpenAI, GPT-4o ("o" representa "omni"), llamó la atención por su capacidad de comprensión de audio. El modelo GPT-4o puede responder a las entradas de audio a una velocidad promedio de 320 milisegundos, similar al tiempo de respuesta de un humano en una conversación típica.

ChatGPT OpenAI Inteligencia Artificial (1)

OpenAI también anunció que la función de modo de voz de ChatGPT utilizará las capacidades de audio del modelo GPT-4o para brindar a los usuarios una experiencia de conversación de voz fluida. Sobre la capacidad de voz de GPT-4o, el equipo de OpenAI escribió:

"Con GPT-4o, entrenamos un nuevo modelo que entrena de forma integral tres modalidades: texto, visual y audio. Es decir, todas las entradas y salidas son procesadas por la misma red neuronal. Como GPT-4o es nuestro primer modelo que combina todas estas modalidades, todavía estamos explorando sus posibilidades y limitaciones."

En junio, OpenAI anunció planes para lanzar una versión alfa de su modo de voz avanzado a un pequeño grupo de usuarios de ChatGPT Plus más tarde, pero el plan se retrasó un mes debido a la necesidad de mejorar la capacidad del modelo para detectar y rechazar ciertos contenidos. Además, OpenAI estaba preparando su infraestructura para escalar a millones de usuarios mientras mantenía una respuesta en tiempo real.

Ahora, el CEO de OpenAI, Sam Altman, ha confirmado a través de X que la versión alfa del modo de voz comenzará a implementarse para los suscriptores de ChatGPT Plus la próxima semana.

El modo de voz actual de ChatGPT no es intuitivo debido a una latencia promedio de 2.8 segundos (GPT3.5) y 5.4 segundos (GPT-4). El próximo modo de voz avanzado basado en GPT-4o permitirá a los suscriptores de ChatGPT tener conversaciones fluidas sin retrasos.

Además, OpenAI también lanzó hoy el esperado SearchGPT, su nuevo intento de mejorar la experiencia de búsqueda en la web. Actualmente, SearchGPT es un prototipo que ofrece capacidades de búsqueda con inteligencia artificial, proporcionando respuestas precisas y rápidas de fuentes claras y relevantes. Puedes obtener más información aquí.

Puntos clave:
- Los suscriptores de ChatGPT Plus obtendrán una nueva función de modo de voz la próxima semana, con una experiencia de conversación fluida sin retrasos.
- El modelo GPT-4o combina el entrenamiento de tres modalidades: texto, visual y audio, lo que permite a OpenAI explorar más su potencial y limitaciones.
- OpenAI también lanzó SearchGPT, que ofrece una función de búsqueda de inteligencia artificial rápida y precisa.

Modelo o1 completo de OpenAI revelado: capacidades superiores, procesamiento de 200.000 tokens

Recientemente, un usuario en la plataforma de redes sociales X reveló que el nuevo modelo o1 de OpenAI proporcionó acceso a algunos usuarios durante un breve período a través de la URL "chatgpt.com/?model=o1", acceso que posteriormente se cerró rápidamente. Según los comentarios de los usuarios, este último modelo puede procesar aproximadamente 200.000 palabras de texto y tiene la capacidad de analizar imágenes. OpenAI califica el modelo o1 como su "modelo más potente", especialmente adecuado para tareas que requieren creatividad y razonamiento de alto nivel.

OpenAI lanza GPT-4O-Audio-Preview: ¡El audio también puede "leer" las emociones!

OpenAI lidera una vez más la innovación en inteligencia artificial con el lanzamiento de su nuevo modelo gpt-4o-audio-preview. Este modelo no solo muestra una capacidad asombrosa en la generación y el análisis de voz, sino que también abre nuevas posibilidades para la interacción humano-máquina. Exploremos las características y las aplicaciones potenciales de este innovador modelo. Las funciones principales de gpt-4o-audio-preview se dividen en tres áreas: en primer lugar, su capacidad para generar respuestas de voz naturales y fluidas a partir de texto, proporcionando una solución ideal para asistentes de voz y atención al cliente virtual...

Moore Threads anuncia el modelo de lenguaje grande de comprensión de audio de código abierto MooER

Moore Threads anuncia el lanzamiento de código abierto de su modelo de lenguaje grande de comprensión de audio, MooER, convirtiéndose en el primer modelo de lenguaje de voz de código abierto a gran escala basado en una GPU doméstica de funciones completas. MooER admite el reconocimiento y la traducción de voz en chino e inglés, emplea una estructura de modelo de tres partes y muestra una potente capacidad de procesamiento multilingüe. Ya se ha publicado el código de inferencia y el modelo entrenado con datos de 5000 horas, con planes para publicar posteriormente el código de entrenamiento y una versión mejorada entrenada con datos de 80,000 horas. En las pruebas comparativas, MooER-5K mostró un rendimiento excelente, con un CER de 4.21% en chino y un WER de 17.98% en inglés.

Nuevo modelo de OpenAI: gpt-4o-2024-08-06 y gpt-4o-mini con soporte para salida estructurada

OpenAI ha añadido una función de salida estructurada a su API, garantizando que la salida generada cumpla completamente con la estructura JSON predefinida. Esto mejora significativamente la fiabilidad de la API y la precisión de las aplicaciones. Esta función no solo define la estructura del JSON, sino que también asegura la exactitud de la salida. Simultáneamente, se ha reducido el precio; el coste de entrada se ha reducido a la mitad y el coste de salida en un tercio. La introducción de la salida estructurada resuelve las limitaciones del esquema JSON en cuanto a garantizar que la salida se ajuste a una estructura específica, mejorando notablemente el rendimiento del modelo en la salida estructurada. Gracias a innovaciones tecnológicas, como la limitación...