Os modelos de linguagem generativa enfrentam muitos desafios desde o treinamento até a aplicação prática. Um problema principal é como otimizar o desempenho do modelo na fase de inferência.

As abordagens atuais, como o aprendizado por reforço com feedback humano (RLHF), concentram-se principalmente em melhorar a taxa de sucesso do modelo, mas muitas vezes ignoram as estratégias de decodificação durante a inferência, como amostragem Best-of-N e decodificação controlada. Essa lacuna entre o objetivo de treinamento e o uso real pode levar à ineficiência, afetando a qualidade e a confiabilidade da saída.

Para resolver esses problemas, as equipes do Google DeepMind e Google Research desenvolveram o InfAlign, uma estrutura de aprendizado de máquina projetada para ser integrada com estratégias de inferência. O InfAlign incorpora métodos de inferência no processo de alinhamento, buscando preencher a lacuna entre treinamento e aplicação. Ele ajusta a função de recompensa baseada em uma estratégia de inferência específica por meio de um método de aprendizado por reforço calibrado. O InfAlign é particularmente eficaz para técnicas como amostragem Best-of-N (gerar várias respostas e selecionar a melhor) e Worst-of-N (comumente usada para avaliação de segurança), garantindo que o modelo alinhado tenha um bom desempenho em ambientes controlados e cenários reais.

image.png

O núcleo do InfAlign é o algoritmo de aprendizado por reforço calibrado e transformado (CTRL), que segue três etapas: calibrar as pontuações de recompensa, transformar essas pontuações de acordo com a estratégia de inferência e resolver um problema de otimização com regularização KL. Ao personalizar a transformação de recompensa para cenários específicos, o InfAlign alinha o objetivo de treinamento com as necessidades de inferência. Este método não apenas melhora a taxa de sucesso na inferência, mas também mantém a eficiência computacional. Além disso, o InfAlign aumenta a robustez do modelo, permitindo que ele lide eficazmente com várias estratégias de decodificação e gere saídas de alta qualidade consistentes.

A eficácia do InfAlign foi validada em experimentos usando o conjunto de dados de utilidade e inofensividade da Anthropic. Em comparação com os métodos existentes, o InfAlign melhorou a taxa de sucesso da inferência de amostragem Best-of-N em 8% a 12% e a avaliação de segurança Worst-of-N em 4% a 9%. Essas melhorias são atribuídas à sua transformação de recompensa calibrada, que resolve eficazmente o problema de calibração incorreta do modelo de recompensa, garantindo um desempenho consistente em diferentes cenários de inferência.

O InfAlign representa um avanço significativo no alinhamento de modelos de linguagem generativa. Ao incorporar estratégias sensíveis à inferência, o InfAlign resolve as diferenças cruciais entre treinamento e implantação. Sua base teórica sólida e resultados empíricos destacam seu potencial para melhorar significativamente o alinhamento de sistemas de IA.

Link:https://arxiv.org/abs/2412.19792

Destaques:

🌟 InfAlign é uma nova estrutura desenvolvida pelo Google DeepMind, projetada para melhorar o desempenho de modelos de linguagem na fase de inferência.

📈 Esta estrutura ajusta a função de recompensa das estratégias de inferência por meio de um método de aprendizado por reforço calibrado, alinhando o objetivo de treinamento com as necessidades de inferência.

✅ Os resultados experimentais mostram que o InfAlign melhora significativamente a taxa de sucesso do modelo em várias tarefas, demonstrando boa adaptabilidade e confiabilidade.