Recentemente, a startup japonesa Rhymes AI, sediada em Tóquio, lançou seu primeiro modelo de inteligência artificial: Aria. A empresa afirma que Aria é o primeiro modelo multimodal híbrido de especialistas (MoE) de código aberto do mundo. Este modelo não apenas possui a capacidade de processar vários modos de entrada, mas também afirma ter capacidades comparáveis, ou até superiores, a alguns modelos comerciais conhecidos.

A filosofia de design do Aria é fornecer uma compreensão e processamento excepcionais em várias formas de entrada, incluindo texto, código, imagens e vídeos. Ao contrário dos modelos Transformer tradicionais, o modelo MoE substitui suas camadas feedforward por vários especialistas especializados. Ao processar cada token de entrada, um módulo de roteamento seleciona um subconjunto de especialistas para ativação, aumentando assim a eficiência computacional e reduzindo o número de parâmetros ativados por token.

image.png

O decodificador do Aria pode ativar 3,5 bilhões de parâmetros para cada token de texto, e o modelo inteiro possui 24,9 bilhões de parâmetros. Para lidar com entradas visuais, o Aria também possui um codificador visual leve com 438 milhões de parâmetros, capaz de converter entradas visuais de vários comprimentos, tamanhos e proporções em tokens visuais. Além disso, a janela de contexto multimodal do Aria atinge 64.000 tokens, o que significa que ele pode processar dados de entrada mais longos.

image.png

Em termos de treinamento, a Rhymes AI dividiu o processo em quatro etapas: pré-treinamento com dados de texto, introdução de dados multimodais, treinamento de sequências longas e, finalmente, ajuste fino.

Durante esse processo, o Aria usou um total de 6,4 trilhões de tokens de texto e 400 bilhões de tokens multimodais para pré-treinamento, com dados de conjuntos de dados conhecidos como Common Crawl e LAION, e com alguns aprimoramentos sintéticos.

De acordo com testes de referência, o Aria superou modelos como Pixtral-12B e Llama-3.2-11B em várias tarefas multimodais, de linguagem e de programação, e, devido ao menor número de parâmetros ativados, seu custo de inferência também é menor.

Além disso, o Aria apresentou um bom desempenho no processamento de vídeos com legendas ou documentos de várias páginas; sua capacidade de compreender vídeos e documentos longos supera a de outros modelos de código aberto, como GPT-4o mini e Gemini1.5Flash.

image.png

Para facilitar o uso, a Rhymes AI lançou o código-fonte do Aria no GitHub sob a licença Apache2.0, permitindo uso acadêmico e comercial. Eles também fornecem uma estrutura de treinamento que permite o ajuste fino do Aria em uma única GPU com várias fontes e formatos de dados. Vale mencionar que a Rhymes AI estabeleceu uma parceria com a AMD para otimizar o desempenho do modelo, apresentando um aplicativo de busca chamado BeaGo, que roda em hardware AMD e fornece aos usuários resultados de busca de IA de texto e imagem mais abrangentes.

Destaques:

🌟 Aria é o primeiro modelo de IA multimodal híbrido de especialistas de código aberto do mundo.  

💡 Aria apresenta excelente desempenho no processamento de várias entradas, incluindo texto, imagens e vídeos, superando muitos modelos concorrentes.  

🤝 A Rhymes AI colaborou com a AMD para otimizar o desempenho do modelo e lançou o aplicativo de busca BeaGo, com suporte a vários recursos.