智源推出Video-XL， un modelo de lenguaje para videos extra largos de una hora

AIbase基地

Publicado elNoticias de IA · 4 minutos de lectura · Oct 28, 2024

354

El Instituto de Investigación de Inteligencia Artificial de Beijing, en colaboración con universidades como la Universidad Jiao Tong de Shanghai, la Universidad del Pueblo Chino, la Universidad de Beijing y la Universidad de Ciencia y Tecnología de la Información de Beijing, ha lanzado un nuevo modelo de lenguaje grande para la comprensión de videos extra largos llamado Video-XL. Este modelo es una demostración importante de las capacidades centrales de los modelos multimodales y un paso clave hacia la Inteligencia Artificial General (AGI). En comparación con los modelos multimodales existentes, Video-XL muestra un rendimiento y una eficiencia superiores en el procesamiento de videos de más de 10 minutos.

微信截图_20241028161117.png

Video-XL aprovecha las capacidades nativas de los modelos de lenguaje grandes (LLM) para comprimir secuencias visuales largas, manteniendo la capacidad de comprensión de videos cortos y mostrando una excelente capacidad de generalización en la comprensión de videos largos. El modelo ocupa el primer lugar en múltiples tareas de varios benchmarks de comprensión de videos largos. Video-XL logra un buen equilibrio entre eficiencia y rendimiento, necesitando solo una tarjeta gráfica con 80 GB de VRAM para procesar una entrada de 2048 fotogramas, muestrear videos de duración horaria y lograr una precisión cercana al 95% en tareas de "búsqueda en un pajar" de video.

微信截图_20241028161127.png

Video-XL promete un amplio valor de aplicación en escenarios como resúmenes de películas, detección de anomalías en videos y detección de inserciones de anuncios, convirtiéndose en una herramienta poderosa para la comprensión de videos largos. El lanzamiento de este modelo marca un paso importante en la eficiencia y precisión de la tecnología de comprensión de videos largos, proporcionando un sólido soporte técnico para el procesamiento y análisis automatizado de contenido de video largo en el futuro.

Actualmente, el código del modelo Video-XL se ha abierto para promover la cooperación y el intercambio tecnológico en la comunidad global de investigación sobre comprensión de video multimodal.

Título del artículo: Video-XL: Modelo de lenguaje de visión extra largo para la comprensión de videos a escala horaria

Enlace del artículo: https://arxiv.org/abs/2409.14485

Enlace del modelo: https://huggingface.co/sy1998/Video_XL

Enlace del proyecto: https://github.com/VectorSpaceLab/Video-XL

Huawei Ascend y Step-Video lanzan un modelo multimodal de código abierto para incursionar en nuevas áreas de la IA

Recientemente, la comunidad Modelers lanzó oficialmente Step-Video y Step-Audio, dos modelos multimodales de código abierto desarrollados por Step-Video. Estos dos modelos se utilizan para la generación de video e interacción de voz, con el objetivo de proporcionar herramientas de IA más potentes para desarrolladores y empresas. El nombre completo del modelo Step-Video es Step-Video-T2V, un modelo de generación de video de código abierto, el más grande del mundo, con una capacidad de 30 mil millones de parámetros. Este modelo puede generar directamente videos de 20 segundos...

DeepSeek lanza Janus-Pro, un nuevo modelo multimodal de gran envergadura

El modelo nacional DeepSeek ha lanzado su nuevo modelo multimodal Janus-Pro, incursionando oficialmente en el campo de la generación de imágenes a partir de texto. Este movimiento marca un gran avance en la tecnología de IA multimodal de DeepSeek. En las pruebas de referencia GenEval y DPG-Bench, Janus-Pro-7B no solo superó a DALL-E3 de OpenAI, sino que también a modelos populares como Stable Diffusion y Emu3-Gen. Janus-Pro utiliza licencia MIT

OpenBMB lanza el modelo multimodal MiniCPM-o2.6: Procesamiento de visión y voz incluso en teléfonos móviles

En los últimos años, la inteligencia artificial ha experimentado un progreso notable, pero persiste el desafío de equilibrar la eficiencia computacional con la multifuncionalidad. Muchos modelos multimodales avanzados, como GPT-4, suelen requerir grandes recursos computacionales, lo que limita su uso a servidores de alta gama y dificulta la aplicación efectiva de la tecnología inteligente en dispositivos periféricos como teléfonos inteligentes y tabletas. Además, el procesamiento en tiempo real de tareas como el análisis de vídeo o la conversión de voz a texto sigue presentando obstáculos tecnológicos, poniendo de manifiesto la necesidad de modelos de IA eficientes y flexibles que permitan una integración perfecta con recursos de hardware limitados.

Noticias de IA

智源推出Video-XL， un modelo de lenguaje para videos extra largos de una hora

AIbase基地

Noticias de IA relacionadas recomendadas

Huawei Ascend y Step-Video lanzan un modelo multimodal de código abierto para incursionar en nuevas áreas de la IA

Microsoft lanza Phi-4, un modelo multimodal y miniaturizado que mejora el procesamiento de voz, visión y texto

DeepSeek lanza Janus-Pro, un nuevo modelo multimodal de gran envergadura

OpenBMB lanza el modelo multimodal MiniCPM-o2.6: Procesamiento de visión y voz incluso en teléfonos móviles