Uma nova pesquisa animadora demonstrou que modelos de linguagem grandes (LLMs) podem melhorar significativamente seu desempenho por meio de recursos de busca. Especificamente, o modelo Llama 3.1, com apenas 800 milhões de parâmetros, após 100 buscas, alcançou um desempenho comparável ao GPT-4o na tarefa de geração de código Python.
Essa ideia lembra o artigo clássico de 2019 de Rich Sutton, pioneiro do aprendizado por reforço, "The Bitter Lesson". Ele argumenta que, com o aumento da capacidade computacional, devemos reconhecer o poder dos métodos gerais. Em particular, "busca" e "aprendizado" parecem ser ótimas opções para expansão contínua.
Embora Sutton tenha enfatizado a importância do aprendizado – modelos maiores geralmente aprendem mais – muitas vezes negligenciamos o potencial da busca no processo de raciocínio. Recentemente, pesquisadores de Stanford, Oxford e DeepMind descobriram que aumentar o número de amostras repetidas na fase de raciocínio pode melhorar significativamente o desempenho do modelo em matemática, raciocínio e geração de código.
Inspirados por essas pesquisas, dois engenheiros decidiram fazer um experimento. Eles descobriram que usar 100 modelos Llama menores para busca pode superar ou igualar o GPT-4o em tarefas de programação Python. Eles usaram uma metáfora vívida: "Antes, era preciso um grande cavalo para realizar uma determinada capacidade; agora, 100 patinhos podem fazer o mesmo".
Para alcançar um desempenho superior, eles usaram a biblioteca vLLM para inferência em lote e executaram em 10 GPUs A100-40GB, atingindo uma velocidade impressionante de 40k tokens/segundo. Os autores escolheram o HumanEval como benchmark, pois ele avalia o código gerado executando os testes, oferecendo uma avaliação mais objetiva e precisa.
De acordo com o relatório, na inferência de zero-shot, o GPT-4o obteve uma pontuação pass@1 de 90,2%. Usando o método descrito, a pontuação pass@k do Llama 3.18B também melhorou significativamente. Com 100 amostras repetidas, o Llama atingiu 90,5%; com 1000 amostras repetidas, a pontuação aumentou para 95,1%, superando claramente o GPT-4o.
Vale ressaltar que, embora este experimento não seja uma reprodução estrita da pesquisa original, ele destaca a possibilidade de modelos menores superarem modelos maiores em um horizonte previsível ao aumentar a capacidade de busca na fase de raciocínio.
A busca é poderosa porque pode ser expandida "transparentemente" com o aumento da capacidade computacional, transferindo recursos da memória para o cálculo, resultando em um equilíbrio de recursos. Recentemente, o DeepMind fez progressos significativos em matemática, demonstrando o poder da busca.
No entanto, o sucesso da busca requer, em primeiro lugar, uma avaliação de alta qualidade dos resultados. O modelo do DeepMind conseguiu uma supervisão eficaz convertendo problemas matemáticos expressos em linguagem natural em representações formais. Em outras áreas, como a tarefa de PNL aberta de "resumir e-mails", a busca eficaz é muito mais difícil.
Esta pesquisa mostra que a melhoria do desempenho de modelos generativos em domínios específicos está intimamente relacionada às suas capacidades de avaliação e busca. Pesquisas futuras podem explorar como melhorar essas capacidades por meio de ambientes digitais replicáveis.
Endereço do artigo: https://arxiv.org/pdf/2407.21787