CogVLM-17B de Tsinghua y Zhishu: Un modelo multimodal chino que desafía a GPT-4V

站长之家

Publicado elNoticias de IA · 2 minutos de lectura · Oct 10, 2023

305

CogVLM-17B: Un Modelo Multimodal de Alto Rendimiento

El modelo multi-modal de origen chino CogVLM-17B, desarrollado en colaboración entre la Universidad Tsinghua y ZhiPu AI, ha demostrado un rendimiento excepcional. Este modelo puede identificar objetos en imágenes y distinguir entre objetos completamente visibles y parcialmente visibles.

CogVLM-17B emplea un método único de fusión profunda, utilizando cuatro componentes clave para lograr una alineación profunda entre las características de la imagen y las características del texto. En varios campos, este modelo ha superado a los modelos de Google, siendo apodado el "guerrero de 14 lados" ("guerrero de 14 pentágonos" sería una traducción más literal pero menos natural), demostrando una excepcional capacidad de procesamiento multi-modal.

Este modelo multi-modal de origen chino proporciona nuevas ideas y posibilidades para la investigación tecnológica en el campo de la multi-modalidad.

Huawei Ascend y Step-Video lanzan un modelo multimodal de código abierto para incursionar en nuevas áreas de la IA

Recientemente, la comunidad Modelers lanzó oficialmente Step-Video y Step-Audio, dos modelos multimodales de código abierto desarrollados por Step-Video. Estos dos modelos se utilizan para la generación de video e interacción de voz, con el objetivo de proporcionar herramientas de IA más potentes para desarrolladores y empresas. El nombre completo del modelo Step-Video es Step-Video-T2V, un modelo de generación de video de código abierto, el más grande del mundo, con una capacidad de 30 mil millones de parámetros. Este modelo puede generar directamente videos de 20 segundos...

DeepSeek lanza Janus-Pro, un nuevo modelo multimodal de gran envergadura

El modelo nacional DeepSeek ha lanzado su nuevo modelo multimodal Janus-Pro, incursionando oficialmente en el campo de la generación de imágenes a partir de texto. Este movimiento marca un gran avance en la tecnología de IA multimodal de DeepSeek. En las pruebas de referencia GenEval y DPG-Bench, Janus-Pro-7B no solo superó a DALL-E3 de OpenAI, sino que también a modelos populares como Stable Diffusion y Emu3-Gen. Janus-Pro utiliza licencia MIT

OpenBMB lanza el modelo multimodal MiniCPM-o2.6: Procesamiento de visión y voz incluso en teléfonos móviles

En los últimos años, la inteligencia artificial ha experimentado un progreso notable, pero persiste el desafío de equilibrar la eficiencia computacional con la multifuncionalidad. Muchos modelos multimodales avanzados, como GPT-4, suelen requerir grandes recursos computacionales, lo que limita su uso a servidores de alta gama y dificulta la aplicación efectiva de la tecnología inteligente en dispositivos periféricos como teléfonos inteligentes y tabletas. Además, el procesamiento en tiempo real de tareas como el análisis de vídeo o la conversión de voz a texto sigue presentando obstáculos tecnológicos, poniendo de manifiesto la necesidad de modelos de IA eficientes y flexibles que permitan una integración perfecta con recursos de hardware limitados.

Noticias de IA

CogVLM-17B de Tsinghua y Zhishu: Un modelo multimodal chino que desafía a GPT-4V

站长之家

Noticias de IA relacionadas recomendadas

Huawei Ascend y Step-Video lanzan un modelo multimodal de código abierto para incursionar en nuevas áreas de la IA

Microsoft lanza Phi-4, un modelo multimodal y miniaturizado que mejora el procesamiento de voz, visión y texto

DeepSeek lanza Janus-Pro, un nuevo modelo multimodal de gran envergadura

OpenBMB lanza el modelo multimodal MiniCPM-o2.6: Procesamiento de visión y voz incluso en teléfonos móviles