Qwen2.5-VL de Alibaba Cloud, IA visual que supera a Claude 3.5

AIbase基地

Publicado elNoticias de IA · 4 minutos de lectura · Jan 29, 2025

417

Alibaba Cloud ha lanzado el nuevo modelo de visión Qwen2.5-VL de Tongyi Qianwen, disponible en tres tamaños: 3B, 7B y 72B.

La versión insignia, Qwen2.5-VL-72B, ha obtenido el primer puesto en 13 evaluaciones de comprensión visual, superando a GPT-4o y Claude3.5. Según Alibaba Cloud, el nuevo Qwen2.5-VL analiza el contenido de las imágenes con mayor precisión y, de forma innovadora, admite la comprensión de vídeos de más de una hora de duración. Este modelo puede buscar eventos específicos en vídeos y resumir los puntos clave de diferentes intervalos de tiempo, ayudando a los usuarios a extraer información clave de forma rápida y eficiente.

Alibaba Cloud Tongyi lanza Qwen2.5-VL: La IA visual más potente, supera a GPT-4o

Además, Qwen2.5-VL, sin necesidad de ajuste fino, puede convertirse en un agente visual de IA (Visual Agents) capaz de controlar teléfonos móviles y ordenadores, realizando operaciones complejas de varios pasos, como enviar felicitaciones a un amigo específico, retocar imágenes en el ordenador o reservar billetes en el móvil. Qwen2.5-VL no solo destaca en el reconocimiento de objetos comunes como flores, pájaros, peces e insectos, sino que también puede analizar texto, gráficos, iconos, figuras y diseños dentro de las imágenes. Alibaba Cloud también ha mejorado la capacidad de reconocimiento OCR de Qwen2.5-VL, reforzando el reconocimiento y la localización de texto en múltiples escenarios, idiomas y orientaciones.

Alibaba Cloud Tongyi lanza Qwen2.5-VL: La IA visual más potente, supera a GPT-4o

Simultáneamente, se ha mejorado significativamente la capacidad de extracción de información para satisfacer las crecientes demandas de digitalización e inteligencia en áreas como la verificación de credenciales y los negocios financieros.

Puntos clave:
🌟 Alibaba Cloud Tongyi Qianwen lanza Qwen2.5-VL, disponible en tres versiones: 3B, 7B y 72B.
📈 Qwen2.5-VL-72B supera a GPT-4o y Claude3.5 en las evaluaciones de comprensión visual.
👀 Qwen2.5-VL admite la comprensión de vídeos de más de 1 hora y mejora la capacidad de reconocimiento OCR.

El vicepresidente de Douyin aclara los rumores sobre una guerra de precios de modelos grandes: reducir los costos mediante la innovación tecnológica

Hoy, Li Liang, vicepresidente de Douyin, comentó sobre los rumores de que ByteDance podría estar iniciando una guerra de precios en modelos grandes. En las redes sociales, declaró claramente que no se trata de una guerra de precios, sino de reducir los costos de uso de los modelos de IA mediante la innovación tecnológica. Según se informa, en la conferencia Volcano Engine Force, ByteDance lanzó oficialmente el modelo de comprensión visual Doubao y anunció su precio de 0,003 yuanes por cada mil tokens de entrada, un 85% más barato que el precio promedio del sector. En respuesta a los rumores de que ByteDance está iniciando otra guerra de precios de modelos grandes, el vicepresidente de Douyin, Li Liang, publicó un mensaje...

La familia de modelos de lenguaje grande Doubao se actualiza por completo; se lanza un nuevo modelo de comprensión visual y un modelo de música 4.0

En la conferencia Volcano Engine FORCE impulsada por la innovación del 18 de diciembre de 2024, Volcano Engine anunció una actualización completa de la familia de modelos de lenguaje grande Doubao, y lanzó un nuevo modelo de comprensión visual. El presidente de Volcano Engine, Tan Dai, declaró que el uso diario de tokens del modelo de lenguaje grande Doubao ha aumentado rápidamente en los últimos meses, alcanzando más de 4 billones, un aumento de 33 veces en comparación con su lanzamiento en mayo. Esta tendencia de crecimiento muestra el amplio uso del modelo de lenguaje grande Doubao en múltiples escenarios de aplicación. En esta ocasión, Volcano Engine, mediante el lanzamiento del modelo de comprensión visual,

ByteDance lanza el modelo de razonamiento visual Doubao: precio tan bajo como 0,003 yuanes/mil tokens

El 18 de diciembre, en la conferencia Volcano Engine FORCE, el presidente de Volcano Engine, Tan Dai, presentó el nuevo modelo de comprensión visual Doubao. Este modelo, al procesar simultáneamente información textual e imágenes, proporciona respuestas más precisas. El nuevo modelo destaca en la identificación, comprensión y capacidad de razonamiento del contenido, y cuenta con una capacidad de descripción visual más detallada, ofreciendo a los usuarios empresariales una mayor capacidad de procesamiento inteligente. Tan Dai reveló en la conferencia que el modelo de comprensión visual Doubao no solo ha logrado un avance significativo en tecnología, sino que también ha reducido considerablemente el precio.

Salesforce lanza xGen-MM, un modelo de IA multimodal de código abierto para mejorar la comprensión visual

Salesforce ha lanzado un modelo de IA multimodal de código abierto llamado xGen-MM, diseñado para comprender y generar simultáneamente varios tipos de datos, como texto e imágenes, lo que representa un cambio significativo en la investigación y las aplicaciones de IA. El modelo ha demostrado un rendimiento excelente en varias pruebas de referencia, mostrando una sólida competencia en comparación con modelos de código abierto similares. Incluye modelos preentrenados, conjuntos de datos y código de ajuste fino. El modelo más grande tiene 4 mil millones de parámetros y puede procesar "datos entrelazados" para realizar múltiples tareas, como responder preguntas sobre varias imágenes simultáneamente. La variedad de opciones de modelos refleja la capacidad de la IA para