Recientemente, la startup japonesa Rhymes AI, con sede en Tokio, lanzó su primer modelo de inteligencia artificial: Aria. La compañía afirma que Aria es el primer modelo de expertos híbridos multimodales (MoE) de código abierto del mundo. Este modelo no solo tiene la capacidad de procesar múltiples modalidades de entrada, sino que también afirma tener capacidades comparables, o incluso superiores, a algunos modelos comerciales conocidos.

El concepto de diseño de Aria es proporcionar una comprensión y procesamiento excelentes en múltiples formas de entrada, incluyendo texto, código, imágenes y videos. A diferencia de los modelos Transformer tradicionales, los modelos MoE reemplazan sus capas de alimentación directa con múltiples expertos especializados. Al procesar cada token de entrada, un módulo de enrutamiento selecciona un subconjunto de expertos para su activación, lo que mejora la eficiencia computacional y reduce el número de parámetros activados por token.

image.png

El decodificador de Aria puede activar 3.500 millones de parámetros por token de texto, y el modelo completo tiene 24.900 millones de parámetros. Para procesar entradas visuales, Aria también cuenta con un codificador visual ligero con 438 millones de parámetros, capaz de convertir entradas visuales de diversas longitudes, tamaños y relaciones de aspecto en tokens visuales. Además, la ventana de contexto multimodal de Aria alcanza los 64.000 tokens, lo que significa que puede procesar datos de entrada más largos.

image.png

En cuanto al entrenamiento, Rhymes AI lo dividió en cuatro etapas: primero, preentrenamiento con datos de texto; luego, introducción de datos multimodales; posteriormente, entrenamiento de secuencias largas; y finalmente, ajuste fino.

Durante este proceso, Aria utilizó un total de 6,4 billones de tokens de texto y 400.000 millones de tokens multimodales para el preentrenamiento, provenientes de conjuntos de datos conocidos como Common Crawl y LAION, con algunos aumentos sintéticos.

Según las pruebas de referencia, Aria supera a modelos como Pixtral-12B y Llama-3.2-11B en varias tareas multimodales, lingüísticas y de programación, y debido a la menor cantidad de parámetros activados, también tiene un menor costo de inferencia.

Además, Aria muestra un buen rendimiento en el procesamiento de videos con subtítulos o documentos de varias páginas; su capacidad para comprender videos y documentos largos supera a la de otros modelos de código abierto como GPT-4o mini y Gemini1.5Flash.

image.png

Para facilitar su uso, Rhymes AI publicó el código fuente de Aria bajo la licencia Apache2.0 en GitHub, permitiendo su uso académico y comercial. También proporcionan un framework de entrenamiento que permite el ajuste fino de Aria en una sola GPU con múltiples fuentes y formatos de datos. Cabe destacar que Rhymes AI colaboró con AMD para optimizar el rendimiento del modelo, mostrando una aplicación de búsqueda llamada BeaGo que se ejecuta en hardware AMD y ofrece a los usuarios resultados de búsqueda de IA de texto e imagen más completos.

Puntos clave:

🌟 Aria es el primer modelo de IA de expertos híbridos multimodales de código abierto del mundo.

💡 Aria ofrece un excelente rendimiento en el procesamiento de múltiples entradas como texto, imágenes y videos, superando a muchos modelos de la competencia.

🤝 Rhymes AI colabora con AMD para optimizar el rendimiento del modelo y lanza la aplicación de búsqueda BeaGo con múltiples funciones.