Ex alumnos de la Universidad de Zhejiang colaboran con Microsoft para lanzar el modelo multimodal LLaVA, desafiando a GPT-4V

量子位

Publicado elNoticias de IA · 1 minutos de lectura · Oct 12, 2023

LLaVA: Un nuevo modelo multimodal que desafía a GPT-4V

Un antiguo alumno de la Universidad de Zhejiang (Instituto Zijingang) en colaboración con Microsoft Research, ha lanzado LLaVA, un modelo multimodal que desafía a GPT-4V. LLaVA ha demostrado un excelente rendimiento en 11 conjuntos de datos de prueba, obteniendo más de 6000 estrellas. Sus capacidades generales superan en un 85% al GPT-4V. El código fuente, el modelo y los datos de entrenamiento de LLaVA ya están disponibles.

Huawei Ascend y Step-Video lanzan un modelo multimodal de código abierto para incursionar en nuevas áreas de la IA

Recientemente, la comunidad Modelers lanzó oficialmente Step-Video y Step-Audio, dos modelos multimodales de código abierto desarrollados por Step-Video. Estos dos modelos se utilizan para la generación de video e interacción de voz, con el objetivo de proporcionar herramientas de IA más potentes para desarrolladores y empresas. El nombre completo del modelo Step-Video es Step-Video-T2V, un modelo de generación de video de código abierto, el más grande del mundo, con una capacidad de 30 mil millones de parámetros. Este modelo puede generar directamente videos de 20 segundos...

DeepSeek lanza Janus-Pro, un nuevo modelo multimodal de gran envergadura

El modelo nacional DeepSeek ha lanzado su nuevo modelo multimodal Janus-Pro, incursionando oficialmente en el campo de la generación de imágenes a partir de texto. Este movimiento marca un gran avance en la tecnología de IA multimodal de DeepSeek. En las pruebas de referencia GenEval y DPG-Bench, Janus-Pro-7B no solo superó a DALL-E3 de OpenAI, sino que también a modelos populares como Stable Diffusion y Emu3-Gen. Janus-Pro utiliza licencia MIT

OpenBMB lanza el modelo multimodal MiniCPM-o2.6: Procesamiento de visión y voz incluso en teléfonos móviles

En los últimos años, la inteligencia artificial ha experimentado un progreso notable, pero persiste el desafío de equilibrar la eficiencia computacional con la multifuncionalidad. Muchos modelos multimodales avanzados, como GPT-4, suelen requerir grandes recursos computacionales, lo que limita su uso a servidores de alta gama y dificulta la aplicación efectiva de la tecnología inteligente en dispositivos periféricos como teléfonos inteligentes y tabletas. Además, el procesamiento en tiempo real de tareas como el análisis de vídeo o la conversión de voz a texto sigue presentando obstáculos tecnológicos, poniendo de manifiesto la necesidad de modelos de IA eficientes y flexibles que permitan una integración perfecta con recursos de hardware limitados.

Noticias de IA

Ex alumnos de la Universidad de Zhejiang colaboran con Microsoft para lanzar el modelo multimodal LLaVA, desafiando a GPT-4V

量子位

Noticias de IA relacionadas recomendadas

Huawei Ascend y Step-Video lanzan un modelo multimodal de código abierto para incursionar en nuevas áreas de la IA

Microsoft lanza Phi-4, un modelo multimodal y miniaturizado que mejora el procesamiento de voz, visión y texto

DeepSeek lanza Janus-Pro, un nuevo modelo multimodal de gran envergadura

OpenBMB lanza el modelo multimodal MiniCPM-o2.6: Procesamiento de visión y voz incluso en teléfonos móviles