A Hugging Face lançou hoje o SmolLM2, um conjunto de novos modelos de linguagem compactos que alcançam desempenho impressionante, exigindo muito menos recursos computacionais do que modelos maiores. Os novos modelos são lançados sob a licença Apache2.0 e vêm em três tamanhos - 135M, 360M e 1,7B parâmetros - tornando-os adequados para implantação em smartphones e outros dispositivos de borda com capacidade de processamento e memória limitadas.

QQ20241105-095741.png

O modelo SmolLM2-1B supera o modelo Llama1B da Meta em vários benchmarks-chave, mostrando-se particularmente forte em raciocínio científico e tarefas de conhecimento geral. O modelo superou modelos concorrentes maiores na maioria dos benchmarks cognitivos, usando uma combinação diversificada de conjuntos de dados, incluindo FineWeb-Edu e conjuntos de dados específicos de matemática e codificação.

O lançamento do SmolLM2 ocorre em um momento crítico em que a indústria de IA está lidando com as demandas computacionais de executar grandes modelos de linguagem (LLMs). Enquanto empresas como OpenAI e Anthropic continuam a expandir os limites do tamanho dos modelos, há uma crescente conscientização da necessidade de IA eficiente e leve que possa ser executada localmente nos dispositivos.

QQ20241105-095748.png

O SmolLM2 oferece uma abordagem diferente, trazendo a poderosa funcionalidade de IA diretamente para dispositivos pessoais, apontando para um futuro onde mais usuários e empresas podem usar ferramentas de IA avançadas, não apenas gigantes de tecnologia com grandes data centers. Esses modelos suportam uma variedade de aplicações, incluindo reescrita de texto, resumo e chamadas de função, sendo adequados para implantação em cenários onde restrições de privacidade, latência ou conectividade tornam as soluções de IA baseadas em nuvem impraticáveis.

Embora esses modelos menores ainda apresentem limitações, eles representam parte de uma tendência mais ampla em direção a modelos de IA mais eficientes. O lançamento do SmolLM2 sugere que o futuro da IA pode não pertencer apenas a modelos cada vez maiores, mas também a arquiteturas mais eficientes capazes de fornecer desempenho poderoso com menos recursos.