C3PO
Técnica de alinhamento de modelo LLM baseada em feedback do usuário
Produto ComumProdutividadeModelo LLMFeedback do Usuário
C3PO é uma técnica de alinhamento de modelo LLM baseada em feedback do usuário, capaz de ajustar o LLM a partir de uma única frase de feedback, evitando generalizações excessivas. A técnica fornece uma implementação de referência, benchmarks relevantes e componentes necessários para facilitar a reprodução da técnica apresentada em artigos de pesquisa.