Recentemente, a Zhihu AI lançou o CritiqueLLM, um modelo de avaliação de alta qualidade e baixo custo para avaliar o desempenho de modelos de geração de texto. Métricas tradicionais como BLEU e ROUGE, baseadas principalmente na correspondência de n-gramas, carecem de compreensão semântica abrangente. Já os métodos de avaliação baseados em modelos dependem fortemente da escolha do modelo base, com apenas os modelos de ponta alcançando resultados satisfatórios.
Para solucionar esses problemas, o CritiqueLLM propõe um modelo de avaliação da qualidade do texto explicável e escalável. Ele é capaz de gerar pontuações e explicações de alta qualidade para diversas tarefas. Em cenários com texto de referência, o CritiqueLLM compara o texto gerado pelo modelo com o texto de referência e fornece uma pontuação. Em 8 tarefas comuns, o coeficiente de correlação entre as pontuações do CritiqueLLM e as pontuações humanas superou significativamente outros modelos, especialmente em cenários sem texto de referência, onde o CritiqueLLM superou o GPT-4 em 3 tarefas, alcançando o melhor desempenho de avaliação.
A metodologia do CritiqueLLM inclui quatro etapas principais: aumento de consultas do usuário, coleta de dados de avaliação com texto de referência, reformulação de dados de avaliação sem texto de referência e treinamento do modelo CritiqueLLM. Por meio dessas etapas, são obtidos dois modelos CritiqueLLM, um para cenários com texto de referência e outro para cenários sem texto de referência, ambos usados para avaliar o desempenho de modelos de geração de texto.