Recentemente, o Allen Institute for Artificial Intelligence (Ai2) lançou o Molmo, uma nova família de modelos de IA multimodal de código aberto que se destaca, superando até mesmo o GPT-4o da OpenAI, o Claude 3.5 Sonnet da Anthropic e o Gemini 1.5 do Google em vários benchmarks de terceiros.

image.png

O Molmo não apenas aceita e analisa imagens enviadas pelos usuários, mas também foi treinado com "1000 vezes menos dados do que seus concorrentes", graças a técnicas de treinamento exclusivas.

image.png

Este lançamento demonstra o compromisso do Ai2 com a pesquisa aberta, fornecendo modelos de alto desempenho, além de pesos e dados abertos para uso por uma comunidade e empresas mais amplas. A família Molmo inclui quatro modelos principais: Molmo-72B, Molmo-7B-D, Molmo-7B-O e MolmoE-1B, sendo o Molmo-72B o modelo principal, com 72 bilhões de parâmetros e desempenho excepcional.

De acordo com as avaliações, o Molmo-72B obteve a pontuação mais alta em 11 benchmarks importantes e ficou em segundo lugar apenas para o GPT-4o em termos de preferência do usuário. O Ai2 também lançou um modelo OLMoE, usando uma abordagem de "conjunto de modelos menores" para melhorar a relação custo-benefício.

A arquitetura do Molmo foi cuidadosamente projetada para alcançar eficiência e desempenho excepcionais. Todos os modelos usam o modelo CLIP ViT-L/14336px da OpenAI como codificador visual, processando imagens multi-escala em tokens visuais. A parte do modelo de linguagem é um Transformer decodificador com diferentes capacidades e abertura.

Em termos de treinamento, o Molmo passou por duas fases: primeiro, pré-treinamento multimodal, e depois, ajuste fino supervisionado. Diferentemente de muitos modelos modernos, o Molmo não dependeu do aprendizado por reforço com feedback humano, mas sim de um processo de treinamento finamente ajustado para atualizar os parâmetros do modelo.

O Molmo apresentou desempenho superior em vários benchmarks, especialmente em tarefas complexas como leitura de documentos e raciocínio visual, demonstrando sua capacidade robusta. O Ai2 já lançou esses modelos e conjuntos de dados no Hugging Face, e nos próximos meses lançará mais modelos e relatórios técnicos expandidos, com o objetivo de fornecer mais recursos aos pesquisadores.

Se você quiser conhecer os recursos do Molmo, agora pode fazer uma demonstração pública através do site oficial do Molmo (https://molmo.allenai.org/).

Destaques:

🌟 O modelo de IA multimodal de código aberto Ai2 Molmo supera os principais produtos do setor.

📊 O Molmo-72B apresenta desempenho excepcional em vários benchmarks, ficando atrás apenas do GPT-4o.

🔍 Alta abertura, com modelos e conjuntos de dados disponíveis para uso livre por pesquisadores.