Rhymes AI lanza Aria, su primer modelo de IA multimodal de código abierto, superando a modelos como GPT-4o mini

Recientemente, la startup japonesa Rhymes AI, con sede en Tokio, lanzó su primer modelo de inteligencia artificial: Aria. La compañía afirma que Aria es el primer modelo de expertos híbridos multimodales (MoE) de código abierto del mundo. Este modelo no solo tiene la capacidad de procesar múltiples modalidades de entrada, sino que también afirma tener capacidades comparables, o incluso superiores, a algunos modelos comerciales conocidos.

El concepto de diseño de Aria es proporcionar una comprensión y procesamiento excelentes en múltiples formas de entrada, incluyendo texto, código, imágenes y videos. A diferencia de los modelos Transformer tradicionales, los modelos MoE reemplazan sus capas de alimentación directa con múltiples expertos especializados. Al procesar cada token de entrada, un módulo de enrutamiento selecciona un subconjunto de expertos para su activación, lo que mejora la eficiencia computacional y reduce el número de parámetros activados por token.

El decodificador de Aria puede activar 3.500 millones de parámetros por token de texto, y el modelo completo tiene 24.900 millones de parámetros. Para procesar entradas visuales, Aria también cuenta con un codificador visual ligero con 438 millones de parámetros, capaz de convertir entradas visuales de diversas longitudes, tamaños y relaciones de aspecto en tokens visuales. Además, la ventana de contexto multimodal de Aria alcanza los 64.000 tokens, lo que significa que puede procesar datos de entrada más largos.

En cuanto al entrenamiento, Rhymes AI lo dividió en cuatro etapas: primero, preentrenamiento con datos de texto; luego, introducción de datos multimodales; posteriormente, entrenamiento de secuencias largas; y finalmente, ajuste fino.

Durante este proceso, Aria utilizó un total de 6,4 billones de tokens de texto y 400.000 millones de tokens multimodales para el preentrenamiento, provenientes de conjuntos de datos conocidos como Common Crawl y LAION, con algunos aumentos sintéticos.

Según las pruebas de referencia, Aria supera a modelos como Pixtral-12B y Llama-3.2-11B en varias tareas multimodales, lingüísticas y de programación, y debido a la menor cantidad de parámetros activados, también tiene un menor costo de inferencia.

Además, Aria muestra un buen rendimiento en el procesamiento de videos con subtítulos o documentos de varias páginas; su capacidad para comprender videos y documentos largos supera a la de otros modelos de código abierto como GPT-4o mini y Gemini1.5Flash.

Para facilitar su uso, Rhymes AI publicó el código fuente de Aria bajo la licencia Apache2.0 en GitHub, permitiendo su uso académico y comercial. También proporcionan un framework de entrenamiento que permite el ajuste fino de Aria en una sola GPU con múltiples fuentes y formatos de datos. Cabe destacar que Rhymes AI colaboró con AMD para optimizar el rendimiento del modelo, mostrando una aplicación de búsqueda llamada BeaGo que se ejecuta en hardware AMD y ofrece a los usuarios resultados de búsqueda de IA de texto e imagen más completos.

Puntos clave:
🌟 Aria es el primer modelo de IA de expertos híbridos multimodales de código abierto del mundo.
💡 Aria ofrece un excelente rendimiento en el procesamiento de múltiples entradas como texto, imágenes y videos, superando a muchos modelos de la competencia.
🤝 Rhymes AI colabora con AMD para optimizar el rendimiento del modelo y lanza la aplicación de búsqueda BeaGo con múltiples funciones.

Noticias de IA

Rhymes AI lanza Aria, su primer modelo de IA multimodal de código abierto, superando a modelos como GPT-4o mini

AIbase基地

Noticias de IA relacionadas recomendadas

Amazon Web Services lanza DeepSeek-R1 totalmente administrado: una nueva herramienta para implementaciones empresariales de IA

Aumento explosivo de la eficiencia de los modelos grandes: se publica el código abierto de la tecnología COMET de ByteDance, con una aceleración de 1,7 veces

ServiceNow a punto de adquirir la empresa de IA Moveworks por 3.000 millones de dólares

¿Navegador con IA integrada? La herramienta de código abierto Browser Use revoluciona el mundo de la tecnología ¡Los desarrolladores la llaman la mejor!