A Zhihu AI lançou o AlignBench, um benchmark de avaliação projetado especificamente para modelos de linguagem grandes (LLMs) em chinês. Este é o primeiro benchmark do tipo para modelos chineses de grande porte, capaz de avaliar meticulosamente o alinhamento entre o modelo e a intenção humana em múltiplas dimensões.
O conjunto de dados do AlignBench é derivado de cenários reais de uso. Passou por etapas de construção inicial, triagem de sensibilidade, geração de respostas de referência e seleção de dificuldade, garantindo sua autenticidade e desafio. O conjunto de dados é dividido em 8 grandes categorias, incluindo perguntas de vários tipos, como perguntas e respostas de conhecimento, geração de textos e interpretação de papéis.
Para garantir automação e reprodutibilidade, o AlignBench utiliza modelos de pontuação (como GPT-4 e CritiqueLLM) para avaliar as respostas de cada modelo, representando a qualidade da resposta. Os modelos de pontuação empregam métodos de pontuação multidimensionais e calibrados por regras, melhorando a consistência entre a pontuação do modelo e a pontuação humana, e fornecendo uma análise e pontuação de avaliação detalhadas.
Os desenvolvedores podem usar o AlignBench para avaliação e utilizar modelos de pontuação de alta capacidade (como GPT-4 ou CritiqueLLM) para pontuação. Através do site do AlignBench, a submissão de resultados pode usar o CritiqueLLM como modelo de pontuação, obtendo os resultados da avaliação em aproximadamente 5 minutos.