Pesquisadores da Meta FAIR, da Universidade da Califórnia, Berkeley, e da Universidade de Nova York desenvolveram uma nova técnica chamada Otimização de Preferência de Pensamento (TPO), projetada para melhorar a qualidade das respostas de modelos de linguagem grandes (LLMs) a instruções. Ao contrário dos modelos tradicionais que se concentram apenas na resposta final, o TPO permite que o modelo pense e reflita internamente antes de fornecer uma resposta, resultando em respostas mais precisas e coerentes.

image.png

O cerne da tecnologia TPO é um método de raciocínio de Cadeia de Pensamento (CoT) aprimorado. Este método incentiva o modelo durante o treinamento a "pensar antes de responder", ajudando-o a construir um processo de pensamento interno mais organizado antes de fornecer a resposta final. As instruções CoT tradicionais às vezes levam a uma redução na precisão e são difíceis de treinar devido à falta de etapas de pensamento explícitas. O TPO supera esses desafios, otimizando e simplificando o processo de pensamento do modelo sem expor as etapas intermediárias ao usuário.

Durante o treinamento do TPO, o LLM é primeiro solicitado a gerar várias linhas de raciocínio, que são então resumidas em uma resposta final. Esses resultados são então avaliados por um modelo "juiz" para selecionar as melhores e piores respostas. Essas avaliações são usadas como pares de "seleção" e "rejeição" para otimização de preferência direta (DPO), melhorando continuamente a qualidade da resposta do modelo.

Ajustando as instruções de treinamento, o TPO incentiva o modelo a pensar internamente antes de responder. Este processo orienta o modelo a otimizar sua resposta, tornando-a mais clara e relevante. Finalmente, a avaliação é feita por um modelo de juiz baseado em LLM que pontua apenas a resposta final, independentemente das etapas de pensamento ocultas, ajudando a melhorar a qualidade da resposta. O TPO também utiliza otimização de preferência direta, criando pares de respostas selecionadas e rejeitadas com raciocínio oculto, refinando ainda mais o processo interno do modelo através de múltiplas rodadas de treinamento.

Em benchmarks do AlpacaEval e Arena-Hard, o método TPO superou os modelos base de resposta tradicionais e o modelo Llama-3-8B-Instruct com "prompt de pensamento". O treinamento iterativo deste método otimizou a capacidade de geração de pensamento, superando vários modelos base. Vale ressaltar que o TPO não se limita a tarefas lógicas e matemáticas, mas também se destaca em tarefas de seguimento de instruções em áreas criativas como marketing e saúde.

Karan Verma, especialista em IA e robótica, compartilhou sua empolgação com o conceito de "LLM pensante" no X (antigo Twitter), expressando entusiasmo pelo potencial desta inovação em aplicações médicas, com o objetivo de melhorar os resultados do tratamento para pacientes.

Este processo de pensamento interno estruturado permite que o modelo processe instruções complexas de forma mais eficaz, expandindo ainda mais suas aplicações em áreas que exigem raciocínio multicamadas e compreensão detalhada, sem a necessidade de dados de pensamento específicos fornecidos por humanos. Esta pesquisa sugere que o TPO tem o potencial de tornar os LLMs mais flexíveis e eficientes em uma variedade de contextos, aplicáveis a áreas que exigem alta flexibilidade e profundidade na geração de respostas.