Recentemente, o Instituto de Inteligência Artificial Allen (AI2) lançou um novo modelo de código aberto, o OLMoE, projetado para atender à demanda por modelos de linguagem grandes (LLMs). Este modelo não apenas apresenta desempenho superior, mas também é relativamente econômico.
O OLMoE utiliza uma arquitetura de especialista misto esparsa (MoE), com 7 bilhões de parâmetros, mas usando apenas 1 bilhão de parâmetros para cada token de entrada. Ele possui duas versões: o OLMoE-1B-7B, mais geral, e o OLMoE-1B-7B-Instruct, ajustado por instruções.
Diferentemente da maioria dos modelos de especialistas mistos proprietários, o AI2 destaca que o OLMoE é totalmente de código aberto. Em seu artigo, eles mencionam: "A maioria dos modelos MoE são proprietários: embora alguns tenham divulgado os pesos do modelo, as informações sobre seus dados de treinamento, código ou receita são extremamente limitadas." Isso impede muitos pesquisadores acadêmicos de acessar esses modelos.
O cientista de pesquisa do AI2, Nathan Lambert, declarou nas redes sociais que o OLMoE ajudará na formulação de políticas, podendo servir como ponto de partida para a implantação de clusters H100 na academia. Ele também mencionou que o lançamento do modelo OLMoE faz parte do objetivo do AI2 de desenvolver modelos de código aberto com desempenho comparável aos modelos fechados.
Na construção do modelo, o AI2 decidiu usar 64 especialistas menores para roteamento refinado e ativar apenas oito deles em tempo de execução. Experimentos mostraram que o OLMoE tem desempenho comparável a outros modelos, mas com custos de inferência e armazenamento de memória significativamente reduzidos. O OLMoE também se baseia no modelo de código aberto anterior do AI2, o OLMO1.7-7B, suportando uma janela de contexto de 4096 tokens. Os dados de treinamento do OLMoE vieram de várias fontes, incluindo Common Crawl, Dolma CC e Wikipédia.
Nos testes de referência, o OLMoE-1B-7B superou muitos modelos existentes ao ser comparado a modelos com parâmetros semelhantes, e até mesmo superou modelos de maior escala, como o Llama2-13B-Chat e o DeepSeekMoE-16B.
Um dos objetivos do AI2 é fornecer mais modelos de IA totalmente de código aberto para pesquisadores, incluindo arquiteturas de especialistas mistos. Embora muitos desenvolvedores estejam usando a arquitetura MoE, o AI2 acredita que a maioria dos outros modelos de IA ainda está muito aquém em termos de abertura.
huggingface: https://huggingface.co/collections/allenai/olmoe-66cf678c047657a30c8cd3da
Link do artigo: https://arxiv.org/abs/2409.02060
Destaques:
- 🌟 O novo modelo de código aberto OLMoE do AI2 oferece competitividade em termos de desempenho e custo.
- 📊 O OLMoE utiliza uma arquitetura de especialista misto esparsa, reduzindo efetivamente os custos de inferência e as necessidades de memória.
- 🔍 O AI2 está comprometido em fornecer modelos de IA totalmente de código aberto, promovendo a pesquisa e o desenvolvimento acadêmicos.