GPT-4o inicia la prueba beta de su función de voz: cuenta chistes, imita maullidos y ayuda a practicar idiomas

AIbase基地

Publicado elNoticias de IA · 7 minutos de lectura · Jul 31, 2024

121

La escena de la película de ciencia ficción "Her" parece estar haciéndose realidad. La función de voz de GPT-4o finalmente ha comenzado su prueba beta, y algunos usuarios de ChatGPT Plus ya han tenido la oportunidad de experimentar esta emocionante nueva función. Esta innovación de OpenAI no solo permite que la IA cuente chistes, imite maullidos de gato, sino que incluso puede funcionar como un "entrenador de segundo idioma" para ayudar a practicar la conversación.

El modo de voz de GPT-4o ofrece una experiencia de conversación más natural y en tiempo real. Los usuarios pueden interrumpir a la IA cuando quieran, e incluso puede percibir y responder a las emociones del usuario. Se espera que todos los usuarios de ChatGPT Plus puedan usar esta función en otoño. Aún más emocionante es que las funciones de video y compartir pantalla se lanzarán próximamente, lo que permitirá a los usuarios tener una interacción "cara a cara" con ChatGPT.

La capacidad de salida de GPT-4o también ha mejorado significativamente. La cantidad de tokens de salida del nuevo modelo ha aumentado de 4000 a 64000, lo que significa que se puede obtener el contenido equivalente a cuatro guiones completos de largometrajes de una sola vez. OpenAI ha lanzado silenciosamente este nuevo modelo beta gpt-4o-64k-output-alpha en su página web oficial.

Para garantizar la seguridad y la calidad, OpenAI ha estado realizando pruebas rigurosas de la función de voz de GPT-4o durante los últimos meses. Han colaborado con más de 100 profesionales de "red teaming" para probar 45 idiomas y han entrenado al modelo para que solo use 4 voces preestablecidas, con el fin de proteger la privacidad del usuario. Además, el filtrado de contenido es esencial, y el equipo ha tomado medidas para evitar la generación de contenido violento y con derechos de autor.

Los resultados de las pruebas reales del modo de voz de GPT-4o por parte de los usuarios son impresionantes. Algunos han descubierto que puede responder preguntas rápidamente, casi sin demora; otros lo han utilizado para imitar diferentes voces y acentos; y otros lo han hecho funcionar como comentarista de partidos de fútbol, incluso contando historias vívidas en chino. Estos casos demuestran la poderosa capacidad de GPT-4o en el reconocimiento y la generación de voz.

Cabe mencionar que, aunque OpenAI afirma que las funciones de video y compartir pantalla se lanzarán más tarde, algunos usuarios ya han tenido acceso anticipado a estas funciones. Por ejemplo, un usuario le mostró a ChatGPT la casita que había preparado para su nuevo gatito, y ChatGPT, después de verla, comentó que "seguramente sería muy cómoda" y preguntó con interés por el estado del gato.

Además, la función de salida larga de GPT-4o también se ha lanzado silenciosamente. OpenAI anunció oficialmente que proporcionará a los probadores la versión alfa de GPT-4o, con un soporte de hasta 64K tokens por solicitud, equivalente a 200 páginas de novela. El lanzamiento de esta función se basa en la demanda de los usuarios de contenido de salida más largo.

Sin embargo, una salida más larga también significa una mayor capacidad de cálculo y un precio más alto. El precio de GPT-4o Long Output es de 6 dólares por millón de tokens de entrada y 18 dólares por millón de tokens de salida, lo que representa un aumento con respecto a los modelos anteriores. A pesar de ello, algunos investigadores consideran que la salida larga se utiliza principalmente en casos de uso como la conversión de datos, y que es muy útil para la codificación, la mejora de la escritura, etc.

En general, la función de voz y la capacidad de salida larga de GPT-4o sin duda ofrecerán a los usuarios una experiencia de interacción más rica y conveniente. Tenemos razones para creer que, a medida que la tecnología siga avanzando, la IA mostrará su valor único en más campos.

GPT-4o OpenAI ChatGPTPlus Función de voz

Este artículo proviene de AIbase Daily

¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.

—— Creado por el grupo AIbase Daily

Noticias de IA relacionadas recomendadas

Boletín diario de IA: OpenAI lanza tres nuevos modelos de voz; la búsqueda de Kuaishou integra completamente DeepSeek R1; Claude activa la función de búsqueda en línea

¡Bienvenido al apartado de "Boletín diario de IA"! Aquí encontrará su guía diaria para explorar el mundo de la inteligencia artificial. Cada día le presentamos los temas más relevantes del ámbito de la IA, enfocados en desarrolladores, para ayudarle a comprender las tendencias tecnológicas y las aplicaciones innovadoras de productos de IA. Conozca los nuevos productos de IA aquí: https://top.aibase.com/1、OpenAI presenta el nuevo modelo de transcripción de voz gpt-4o-transcribe, con una precisión de voz a texto significativamente mejorada. OpenAI lanzó recientemente tres nuevos modelos de voz, a saber:

Mar 21, 2025

OpenAI lanza el nuevo modelo de transcripción de voz gpt-4o-transcribe: precisión mejorada en la conversión de voz a texto

Tras generar cierto interés en el campo de la IA de voz, OpenAI no ha dejado de explorar en este ámbito. El creador de ChatGPT vuelve a la carga con tres nuevos modelos de voz de desarrollo propio: gpt-4o-transcribe, gpt-4o-mini-transcribe y gpt-4o-mini-tts. El más destacado es gpt-4o-transcribe. Actualmente, estos nuevos modelos ya están...

Mar 21, 2025

130

Diario de IA: DeepSeek lanza la herramienta de aceleración de modelos grandes FlashMLA; AI Conch presenta el modelo I2V-01-Director; Grok 3 estrena la función de voz en tiempo real

¡Bienvenido a la sección 【Diario de IA】! Aquí tienes tu guía diaria para explorar el mundo de la inteligencia artificial. Cada día te presentamos los temas candentes en el campo de la IA, enfocados en desarrolladores, para ayudarte a entender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA. Productos de IA frescos, haz clic para saber más: https://top.aibase.com/1. Primer día de la semana de código abierto de DeepSeek: lanzamiento de la herramienta de aceleración de modelos FlashMLA con un rendimiento de decodificación que alcanza los 3000GB/s. DeepSeek lanzó FlashM en el primer día de la semana de código abierto.

Feb 24, 2025

100

Grok 3 lanza oficialmente su función de voz: 10 modos, incluso opciones para adultos

La compañía xAI de Elon Musk ha anunciado el lanzamiento oficial de la función de voz para su chatbot de inteligencia artificial, Grok 3. Esta esperada función ya está disponible para los usuarios a través de la aplicación Grok, actualmente con soporte para interacciones en inglés. Según las últimas noticias en la plataforma X, los usuarios solo necesitan actualizar la aplicación Grok para encontrar el nuevo icono de voz junto al botón 'Nueva conversación' en la esquina superior derecha de la interfaz. Al hacer clic, podrán experimentar esta nueva función. Según xAI, la función de voz de Grok 3 ofrece hasta 10 modos diferentes, incluyendo dos marcados como

Feb 24, 2025

13.5k

Grok 3 lanza función de voz en tiempo real con 10 modos

Recientemente, la aplicación Grok de xAI ha lanzado un modo de voz en tiempo real con 10 modos diferentes, permitiendo a los usuarios interactuar con la IA a través de la voz para mejorar la experiencia. Sin embargo, un usuario de X ha descubierto que la aplicación también incluye nuevos modos llamados 'Desenfrenado' y 'Sensual', generando un gran interés. Según el usuario, el modo 'Desenfrenado' "discute constantemente", especializado en argumentos provocativos; mientras que el modo 'Sensual' "comienza coqueteaando", con un tono romántico o sugestivo. El usuario finalizó su publicación con un "Musk nos entiende".

Feb 24, 2025

9.1k

Claude APP añade función de voz: Anthropic prueba la transcripción de voz de hasta 10 minutos

Según informes, la empresa de inteligencia artificial Anthropic está probando una nueva función para su aplicación Claude. Se dice que la compañía está probando a pequeña escala una función de transcripción de voz que permite a los usuarios grabar hasta 10 minutos de audio para que Claude lo transcriba. Si esta función se lanza oficialmente, expandirá las formas de interactuar con Claude, permitiendo a los usuarios comunicarse con el asistente de IA de forma más natural mediante voz. Actualmente, la función se encuentra en fase de prueba y solo está disponible para algunos usuarios.

Oct 30, 2024

1.7k

Lanzamiento de la función de voz emocional de extremo a extremo de Zhihu Qingyan: se puede interrumpir en cualquier momento y admite varios idiomas y dialectos

Zhihu AI ha anunciado que su tecnología de voz emocional de extremo a extremo se ha lanzado oficialmente en la plataforma Zhihu Qingyan y está disponible para todos los usuarios. Esta tecnología supera las limitaciones de las tecnologías tradicionales de conversión de texto a voz (TTS), pudiendo comprender profundamente el contexto y generar conversaciones naturales llenas de emoción. Esto marca que la tecnología de síntesis de voz de Zhihu AI ha evolucionado de una simple lectura de texto a una inteligencia artificial capaz de expresar emociones reales.

Oct 25, 2024

4.8k

OpenAI lanza GPT-4O-Audio-Preview: ¡El audio también puede "leer" las emociones!

OpenAI lidera una vez más la innovación en inteligencia artificial con el lanzamiento de su nuevo modelo gpt-4o-audio-preview. Este modelo no solo muestra una capacidad asombrosa en la generación y el análisis de voz, sino que también abre nuevas posibilidades para la interacción humano-máquina. Exploremos las características y las aplicaciones potenciales de este innovador modelo. Las funciones principales de gpt-4o-audio-preview se dividen en tres áreas: en primer lugar, su capacidad para generar respuestas de voz naturales y fluidas a partir de texto, proporcionando una solución ideal para asistentes de voz y atención al cliente virtual...

Oct 18, 2024

7.6k

¡Grandes noticias! La función de voz avanzada de ChatGPT ya está disponible para todos los usuarios gratuitos

Recientemente, el modo de voz avanzado de ChatGPT de OpenAI se ha lanzado silenciosamente para los usuarios gratuitos, y está disponible en las plataformas iOS y Android. Muchos usuarios gratuitos han informado que, después de iniciar sesión en sus cuentas, ya pueden experimentar la función de voz avanzada lanzada recientemente. Cabe señalar que, por el momento, la función no está disponible en la Unión Europea, y para experimentar el modo de voz avanzado, es necesario actualizar a la última versión del cliente. Se entiende que la función de voz avanzada ofrece una conversación natural, incluyendo el manejo de interrupciones y el humor, etc.

Oct 8, 2024

6.6k

Alerta de OpenAI: La nueva función de voz de ChatGPT podría provocar dependencia emocional

La nueva función de voz de ChatGPT, basada en el modelo GPT-4, lanzada recientemente por OpenAI, tiene como objetivo mejorar la naturalidad y la interactividad de la comunicación entre humanos y máquinas. Sin embargo, esta innovación ha generado preocupación por la dependencia emocional de los usuarios. Algunos usuarios han establecido vínculos emocionales con la IA, incluso expresando apego al AI, lo que podría afectar su comportamiento social y su interacción con seres humanos reales. Los estudios sugieren que las interacciones de voz prolongadas con la IA podrían alterar las normas sociales de los usuarios, como la interrupción frecuente por parte de la IA, algo poco común en las interacciones humanas. GPT-

Aug 19, 2024

3.3k

Noticias de IA

IA Diario

Cronología de la IA

Al hardware

Últimos Casos

Colección de Imágenes

Colección de Videos

Colección de Audio

Colección de Contenido

Últimos Tutoriales

Ranking de Productos de IA

Ranking de Crecimiento de Tráfico de IA

Ranking de Descenso de Tráfico de IA

Ranking Semanal de IA

Estados Unidos

China

India

Brasil

Generación de Imágenes

Asistente Personal

Generación de Personajes

Generación de Videos

Ranking de Proyectos de IA

Ranking de Crecimiento de Proyectos de IA

Ranking de Desarrolladores de IA

Ranking de Organizaciones de IA

Deepseek

TTS

LLM

ChatGPT

Visión General

GPT-4o inicia la prueba beta de su función de voz: cuenta chistes, imita maullidos y ayuda a practicar idiomas

AIbase基地

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

Boletín diario de IA: OpenAI lanza tres nuevos modelos de voz; la búsqueda de Kuaishou integra completamente DeepSeek R1; Claude activa la función de búsqueda en línea

OpenAI lanza el nuevo modelo de transcripción de voz gpt-4o-transcribe: precisión mejorada en la conversión de voz a texto

Diario de IA: DeepSeek lanza la herramienta de aceleración de modelos grandes FlashMLA; AI Conch presenta el modelo I2V-01-Director; Grok 3 estrena la función de voz en tiempo real

Grok 3 lanza oficialmente su función de voz: 10 modos, incluso opciones para adultos

Grok 3 lanza función de voz en tiempo real con 10 modos

Claude APP añade función de voz: Anthropic prueba la transcripción de voz de hasta 10 minutos

Lanzamiento de la función de voz emocional de extremo a extremo de Zhihu Qingyan: se puede interrumpir en cualquier momento y admite varios idiomas y dialectos

OpenAI lanza GPT-4O-Audio-Preview: ¡El audio también puede "leer" las emociones!

¡Grandes noticias! La función de voz avanzada de ChatGPT ya está disponible para todos los usuarios gratuitos

Alerta de OpenAI: La nueva función de voz de ChatGPT podría provocar dependencia emocional