La función multimodales de OpenAI ChatGPT ya está disponible, admite interacción de voz y reconocimiento de imágenes

智能涌现

Publicado elNoticias de IA · 2 minutos de lectura · Sep 26, 2023

El 25 de septiembre, OpenAI lanzó funciones multimodales para su popular chatbot de IA, ChatGPT, incluyendo interacción por voz y reconocimiento de imágenes. Las nuevas funciones permiten a los usuarios interactuar a través de conversaciones de voz y la carga de imágenes, ofreciendo capacidades de reconocimiento de voz, reconocimiento de texto y detección de objetos. Esta versión multimodal de ChatGPT se llama GPT-4V, y se entrenó al mismo tiempo que GPT-4, aunque su lanzamiento se retrasó por motivos de seguridad. OpenAI indicó que las nuevas funciones se lanzarán primero para los suscriptores de ChatGPT Plus y los usuarios de la versión empresarial.

Huawei Ascend y Step-Video lanzan un modelo multimodal de código abierto para incursionar en nuevas áreas de la IA

Recientemente, la comunidad Modelers lanzó oficialmente Step-Video y Step-Audio, dos modelos multimodales de código abierto desarrollados por Step-Video. Estos dos modelos se utilizan para la generación de video e interacción de voz, con el objetivo de proporcionar herramientas de IA más potentes para desarrolladores y empresas. El nombre completo del modelo Step-Video es Step-Video-T2V, un modelo de generación de video de código abierto, el más grande del mundo, con una capacidad de 30 mil millones de parámetros. Este modelo puede generar directamente videos de 20 segundos...

¡Gran avance en la IA de avatares digitales! Hedra lanza Character-3 y Hedra Studio: inferencia conjunta de imagen, texto y audio

Hedra ha presentado Character-3 y Hedra Studio, dos innovaciones que marcan un hito en la tecnología de avatares digitales. Estos avances permiten la inferencia conjunta de imagen, texto y audio, abriendo nuevas posibilidades para la creación de experiencias inmersivas y realistas en diversas aplicaciones.

¡Gran avance en la recuperación multimodal!智源 publica el modelo de vector multimodal BGE-VL

El 6 de marzo, el Instituto de Inteligencia Artificial de Beijing anunció la publicación del modelo de vector multimodal BGE-VL, un logro que marca un gran avance en el campo de la recuperación multimodal. El modelo BGE-VL ha logrado los mejores resultados en tareas de recuperación multimodal como la recuperación de imágenes y texto y la recuperación de imágenes combinadas, mejorando significativamente el rendimiento de la recuperación multimodal.

Noticias de IA

La función multimodales de OpenAI ChatGPT ya está disponible, admite interacción de voz y reconocimiento de imágenes

智能涌现

Noticias de IA relacionadas recomendadas

Huawei Ascend y Step-Video lanzan un modelo multimodal de código abierto para incursionar en nuevas áreas de la IA

¡Gran avance en la IA de avatares digitales! Hedra lanza Character-3 y Hedra Studio: inferencia conjunta de imagen, texto y audio

Cohere lanza Aya Vision, un nuevo modelo de IA multimodal, en versiones de 32B y 8B

¡Gran avance en la recuperación multimodal!智源 publica el modelo de vector multimodal BGE-VL