Recentemente, cientistas do Meta, da Universidade da Califórnia em Berkeley e da Universidade de Nova York colaboraram no desenvolvimento de uma nova técnica chamada "Otimização de Preferência de Pensamento" (Thought Preference Optimization, ou TPO). O objetivo dessa tecnologia é melhorar o desempenho de grandes modelos de linguagem (LLMs) em várias tarefas, fazendo com que a IA considere mais cuidadosamente suas respostas antes de fornecê-las.

image.png

Os pesquisadores afirmam que o "pensamento" deve ter ampla utilidade prática. Por exemplo, em tarefas de escrita criativa, a IA pode usar seu processo de pensamento interno para planejar a estrutura geral e o desenvolvimento dos personagens. Este método difere significativamente das técnicas de prompt de "pensamento em cadeia" (Chain-of-Thought, CoT) anteriores, que são usadas principalmente em tarefas matemáticas e lógicas, enquanto o TPO tem um escopo de aplicação muito mais amplo. Os pesquisadores mencionam o novo modelo o1 da OpenAI, argumentando que o processo de pensamento também é útil para tarefas mais amplas.

Então, como o TPO funciona? Primeiro, o modelo gera uma série de etapas de pensamento antes de responder a uma pergunta. Em seguida, ele cria várias saídas, e um modelo de avaliação avalia apenas as respostas finais, não as etapas de pensamento em si. Finalmente, através da otimização de preferências dessas avaliações, o modelo é treinado. Os pesquisadores esperam que a melhoria na qualidade das respostas possa ser alcançada melhorando o processo de pensamento, permitindo que o modelo obtenha uma capacidade de raciocínio mais eficaz no aprendizado implícito.

Nos testes, o modelo Llama38B usando TPO superou a versão sem raciocínio explícito em benchmarks de seguimento de instruções gerais. Nas avaliações AlpacaEval e Arena-Hard, a taxa de vitória do TPO foi de 52,5% e 37,3%, respectivamente. Mais emocionante ainda, o TPO também fez progressos em áreas que normalmente não exigem pensamento explícito, como senso comum, marketing e saúde.

No entanto, a equipe de pesquisa observa que a configuração atual não é adequada para problemas matemáticos, pois nessas tarefas o TPO apresentou desempenho inferior ao modelo básico. Isso sugere que métodos diferentes podem ser necessários para tarefas altamente especializadas. Pesquisas futuras podem se concentrar no controle do comprimento do processo de pensamento e no impacto do pensamento em modelos maiores.

Destaques:

🌟 A equipe de pesquisa lançou a "Otimização de Preferência de Pensamento" (TPO), com o objetivo de melhorar a capacidade de pensamento da IA na execução de tarefas.

🧠 O TPO faz com que o modelo gere etapas de pensamento antes de responder, usando um modelo de avaliação para otimizar a qualidade da resposta.

📈 Os testes mostraram que o TPO tem um desempenho excelente em áreas como senso comum e marketing, mas apresenta desempenho ruim em tarefas matemáticas.