Alibaba International lanza Ovis, su nuevo modelo multimodal de IA que te da los pasos para cocinar solo con ver la imagen del plato

En una reciente presentación, el equipo de IA de Alibaba International reveló su último modelo multimodal de IA, Ovis, una innovadora tecnología de IA que sin duda ofrece nuevas oportunidades para diversos sectores. Ovis cuenta con una potente capacidad de comprensión de imágenes y procesamiento de datos, lo que resulta realmente sorprendente.

La capacidad multimodal de Ovis es excepcionalmente potente; puede procesar diversos tipos de datos, como texto e imágenes, mostrando una excelente capacidad integral. En comparación con los modelos de lenguaje tradicionales, Ovis no solo comprende texto, sino que también puede analizar en profundidad información no textual, como imágenes.

Por ejemplo, el usuario solo necesita cargar una foto de un plato, y Ovis puede identificar rápidamente y proporcionar los pasos de cocción detallados, ayudando al usuario a preparar fácilmente deliciosos platos.

Imagen

Ovis proporciona recetas mediante el reconocimiento y procesamiento de imágenes

Según los datos de la plataforma de evaluación multimodal OpenCompass, Ovis1.6-Gemma2-9B obtuvo el primer puesto general entre los modelos con menos de 30B de parámetros, superando a una serie de modelos excelentes como MiniCPM-V-2.6. Este logro demuestra la competitividad de Ovis en el mercado.

Imagen

Datos de evaluación de Ovis en OpenCompass

Además, Ovis destaca en áreas como el razonamiento matemático, el reconocimiento de objetos y la toma de decisiones complejas. Por ejemplo, puede resolver problemas matemáticos con precisión, identificar variedades de flores e incluso realizar traducciones de textos manuscritos sin problemas. Entre las cinco ventajas principales de Ovis, las más destacadas son su innovador diseño de arquitectura y su capacidad de procesamiento de imágenes de alta resolución, lo que mejora considerablemente su rendimiento en tareas multimodales.

La estrategia de código abierto de Ovis también es digna de elogio. Su licencia utiliza el protocolo Apache2.0, lo que significa que los usuarios pueden utilizar y mejorar libremente este modelo. Los modelos y códigos de la serie Ovis ya se han publicado en GitHub, y los desarrolladores pueden acceder y realizar desarrollos secundarios fácilmente.

En una amplia gama de escenarios de aplicación, como la conducción autónoma, el diagnóstico médico y la comprensión de contenido de vídeo, el modelo multimodal Ovis ha demostrado un enorme potencial. El equipo internacional de Alibaba reveló que los datos de los últimos seis meses muestran un crecimiento continuo en la demanda de IA por parte de los comerciantes, con una duplicación de las llamadas cada dos meses en promedio. Ovis sin duda ayudará a más comerciantes a mejorar la eficiencia operativa.

Puntos clave:
1️⃣ Ovis es un modelo multimodal de IA que puede procesar varios tipos de datos, como texto e imágenes, mostrando una excelente capacidad integral.
2️⃣ Ovis1.6-Gemma2-9B obtuvo el primer puesto general en la evaluación de OpenCompass entre los modelos con menos de 30B de parámetros, superando a varios competidores excelentes.
3️⃣ Ovis utiliza la licencia de código abierto Apache2.0, y todos los modelos y códigos se han publicado en GitHub, los desarrolladores pueden usarlos y mejorarlos libremente.

Noticias de IA

Alibaba International lanza Ovis, su nuevo modelo multimodal de IA que te da los pasos para cocinar solo con ver la imagen del plato

AIbase基地

Noticias de IA relacionadas recomendadas

Huawei Ascend y Step-Video lanzan un modelo multimodal de código abierto para incursionar en nuevas áreas de la IA

Microsoft lanza Phi-4, un modelo multimodal y miniaturizado que mejora el procesamiento de voz, visión y texto

DeepSeek lanza Janus-Pro, un nuevo modelo multimodal de gran envergadura

Lanzamiento de la API del modelo de comprensión de imágenes multimodales Kimi de Moonshot