Recentemente, o Allen Institute for Artificial Intelligence (AI2) lançou seu mais recente modelo de linguagem grande: OLMo232B. Este modelo chegou com grande destaque, não apenas como a mais nova criação da série OLMo2, mas também por sua abordagem “totalmente aberta”, desafiando os modelos proprietários fechados.

O aspecto mais notável do OLMo232B é sua natureza completamente de código aberto. O AI2 generosamente disponibilizou todos os dados, códigos, pesos e o processo de treinamento detalhado deste modelo. Essa transparência contrasta fortemente com os modelos de código fechado e secretos.

O AI2 espera que essa colaboração aberta promova pesquisas e inovações mais amplas, permitindo que pesquisadores globais construam sobre o trabalho do OLMo232B. Afinal, em uma era de compartilhamento de conhecimento, a ocultação de informações não é uma estratégia sustentável.

32 bilhões de parâmetros: competindo e até superando o GPT-3.5 Turbo

Claro, apenas o espírito aberto não é suficiente; a capacidade é fundamental. O OLMo232B possui 32 bilhões de parâmetros, um número considerável que indica um aumento significativo em escala em relação às gerações anteriores.

Ainda mais emocionante é que, em vários benchmarks acadêmicos amplamente reconhecidos, este modelo de código aberto superou o GPT-3.5 Turbo e o GPT-4 mini! Isso sem dúvida injetou uma dose de ânimo na comunidade de IA de código aberto, demonstrando que apenas instituições com grandes recursos financeiros não são capazes de criar modelos de IA de ponta. Parece que dedicação e treinamento inteligente podem alcançar resultados extraordinários.

QQ_1742280716141.png

O sucesso do OLMo232B está intrinsecamente ligado ao seu processo de treinamento refinado. O treinamento foi dividido em duas fases principais: pré-treinamento e treinamento intermediário. Na fase de pré-treinamento, o modelo processou um enorme conjunto de dados de aproximadamente 3,9 trilhões de tokens, provenientes de diversas fontes, incluindo DCLM, Dolma, Starcoder e Proof Pile II. Isso é como permitir que o modelo leia extensivamente, aprendendo diversos padrões de linguagem.

Já o treinamento intermediário focou no conjunto de dados Dolmino, um conjunto de alta qualidade com 843 bilhões de tokens, abrangendo conteúdo educacional, matemático e acadêmico, aprimorando ainda mais a capacidade de compreensão do modelo em áreas específicas. Essa abordagem de treinamento em fases e direcionada garantiu que o OLMo232B possuísse uma base sólida e refinada em linguagem.

"Mão leve": maior desempenho com menos poder computacional

Além do desempenho excepcional, o OLMo232B também demonstrou uma capacidade impressionante em termos de eficiência de treinamento. Afirma-se que ele atingiu um nível de desempenho comparável aos modelos de código aberto líderes, utilizando apenas cerca de um terço dos recursos computacionais, em comparação com modelos como o Qwen2.532B, que exigem maior poder computacional.

É como um artesão altamente eficiente que, com menos ferramentas e tempo, produz uma obra tão boa ou até melhor, refletindo o investimento do AI2 no desenvolvimento de IA eficiente em termos de recursos. Isso sugere que, no futuro, poderemos ver mais modelos de IA poderosos e acessíveis, não mais exclusivos de grandes empresas.

O lançamento do OLMo232B não é apenas um novo modelo de IA, mas também um marco importante no caminho para uma IA aberta e acessível. Ao fornecer uma solução totalmente aberta e com desempenho que compete e até supera alguns modelos proprietários, o AI2 demonstra que um design de modelo cuidadoso e métodos de treinamento eficientes podem levar a grandes avanços. Essa abertura incentivará pesquisadores e desenvolvedores em todo o mundo a participar ativamente, impulsionando juntos o progresso no campo da inteligência artificial, beneficiando toda a sociedade.

É previsível que o surgimento do OLMo232B trará uma lufada de ar fresco para a área de pesquisa em IA. Ele não apenas reduz a barreira de entrada para pesquisa, promovendo uma colaboração mais ampla, mas também mostra um caminho para o desenvolvimento de IA mais dinâmico e inovador. Quanto às gigantes da IA que ainda se agarram a seus "segredos exclusivos", talvez seja hora de considerar que a abertura pode levar a um futuro mais amplo.

github:https://github.com/allenai/OLMo-core

huggingface:https://huggingface.co/allenai/OLMo-2-0325-32B-Instruct