Recentemente, uma equipe de pesquisa do Instituto Elis de Tübingen, da Universidade de Maryland e do Laboratório Nacional Lawrence Livermore desenvolveu um novo modelo de linguagem chamado Huginn. Este modelo emprega uma arquitetura recursiva, melhorando significativamente sua capacidade de raciocínio. Diferentemente dos modelos tradicionais, o Huginn não requer treinamento em uma "cadeia de raciocínio" específica; ele pode raciocinar autonomamente no "espaço latente" da rede neural e, em seguida, gerar a saída.
A equipe de pesquisa desenvolveu um novo modelo de linguagem chamado Huginn, que utiliza uma arquitetura recursiva e melhora significativamente a capacidade de raciocínio. Ao contrário dos modelos tradicionais, o Huginn não precisa de treinamento específico em "cadeias de raciocínio", podendo raciocinar de forma autônoma no "espaço latente" da rede neural e, então, produzir resultados.
O modelo Huginn foi treinado em larga escala no supercomputador Frontier, usando 4096 GPUs AMD. Seu método de treinamento é único, empregando um número variável de iterações de cálculo. O sistema decide aleatoriamente quantas vezes repetir os módulos de cálculo, permitindo que o modelo se adapte melhor à complexidade de diferentes tarefas.
Observação da fonte: A imagem foi gerada por IA, com direitos de uso concedidos pela Midjourney.
Testes mostraram que o Huginn se destaca em tarefas matemáticas e de programação, superando modelos de código aberto com parâmetros e dados de treinamento várias vezes maiores nos benchmarks GSM8k e MATH. Os pesquisadores observaram que o Huginn consegue ajustar a profundidade do cálculo de acordo com a complexidade da tarefa e desenvolver cadeias de raciocínio no "espaço latente". Análises indicam que o modelo forma padrões de cálculo complexos no "espaço latente", como trajetórias circulares ao resolver problemas matemáticos. Isso demonstra que o Huginn pode aprender autonomamente e raciocinar de maneiras inovadoras.
Os pesquisadores acreditam que, embora o desempenho absoluto do Huginn ainda precise de melhorias, como modelo de prova de conceito, ele já demonstra um potencial surpreendente. Com o aumento do tempo de raciocínio e da capacidade, modelos de grande escala que utilizam a arquitetura Huginn podem se tornar uma alternativa aos modelos de raciocínio tradicionais. A equipe destaca que o método do Huginn pode capturar tipos de raciocínio difíceis de expressar e planeja continuar a pesquisa, explorando métodos de extensão como o aprendizado por reforço para melhorar ainda mais o desempenho do modelo.