O Instituto de Pesquisa de Inteligência Artificial de Pequim (BAAI) lançou recentemente o FlagEval Debate, a primeira plataforma de debate de modelos de linguagem grandes em chinês do mundo. Esta nova plataforma visa fornecer uma nova maneira de avaliar as capacidades dos modelos de linguagem grandes por meio do mecanismo competitivo de debates entre modelos. É uma extensão do FlagEval, o serviço de avaliação de modelos da BAAI, com o objetivo de identificar as diferenças de capacidade entre os modelos de linguagem grandes.
Os debates existentes entre modelos de linguagem grandes apresentam alguns problemas, como resultados frequentemente empatados, dificultando a distinção entre os modelos; conteúdo de teste dependente de votos de usuários, exigindo grande participação; e falta de interação entre os modelos. Para resolver esses problemas, o Instituto de Pesquisa de Pequim adotou a forma de debate entre modelos de linguagem grandes para avaliação.
O debate, como uma atividade intelectual baseada na linguagem, demonstra o raciocínio lógico, a organização da linguagem e a capacidade de análise e processamento de informações dos participantes. O debate entre modelos de linguagem grandes pode mostrar o nível de compreensão de informações, integração de conhecimento, raciocínio lógico, geração de linguagem e capacidade de diálogo dos modelos, ao mesmo tempo em que testa seu processamento de informações em contextos complexos e sua capacidade de adaptação e resposta.
O Instituto de Pesquisa de Pequim descobriu que a forma interativa de debate destaca as diferenças entre os modelos e permite o cálculo de rankings eficazes de modelos com base em uma pequena amostra de dados. Portanto, eles lançaram o FlagEval Debate, uma plataforma de debate de modelos de linguagem grandes em chinês baseada em testes públicos.
A plataforma permite que dois modelos debatam sobre um determinado tema, selecionado aleatoriamente pela plataforma. O banco de dados de temas é composto principalmente por tópicos em alta, temas propostos por especialistas em avaliação e por especialistas de alto nível em debates. Todos os usuários podem avaliar cada debate na plataforma, melhorando a experiência do usuário.
Cada debate entre modelos inclui cinco rodadas de apresentação de opiniões, com cada lado tendo uma oportunidade. Para evitar vieses devido à posição (a favor ou contra), os dois modelos assumem ambos os papéis (a favor e contra). Cada modelo de linguagem grande participa de vários debates com outros modelos, e a classificação final é calculada com base nos pontos obtidos.
Os debates entre modelos utilizam duas abordagens: testes públicos abertos e avaliação por especialistas. O júri de especialistas é composto por participantes e juízes de competições profissionais de debates. Os espectadores dos testes públicos abertos podem avaliar e votar livremente.
O Instituto de Pesquisa de Pequim afirma que continuará explorando os caminhos tecnológicos e o valor de aplicação dos debates entre modelos, mantendo os princípios de ciência, autoridade, justiça e abertura, aperfeiçoando continuamente o sistema de avaliação de modelos de linguagem grandes FlagEval e fornecendo novas perspectivas e reflexões para o ecossistema de avaliação de modelos de linguagem grandes.
Site do FlagEval Debate:
https://flageval.baai.org/#/debate