Em uma coletiva de imprensa realizada em 19 de dezembro de 2024, o Instituto de Inteligência Artificial de Pequim (BAAI) e a Tencent anunciaram o lançamento do LongBench v2, um benchmark projetado para avaliar a capacidade de compreensão e raciocínio profundo de modelos de linguagem grandes (LLMs) em tarefas de texto longo e multitarefas do mundo real. A plataforma visa impulsionar o progresso dos modelos de texto longo em termos de compreensão e raciocínio, respondendo aos desafios atuais de LLMs de texto longo em aplicações.
Características notáveis do LongBench v2 incluem suporte a comprimentos de texto mais longos, variando de 8k a 2 milhões de palavras, e contém 503 questões de múltipla escolha desafiadoras (quatro opções), com alta dificuldade; mesmo especialistas humanos alcançam uma precisão média de apenas 53,7% em 15 minutos. Além disso, o benchmark abrange seis categorias principais de tarefas, incluindo perguntas e respostas com um único documento, perguntas e respostas com múltiplos documentos e aprendizagem contextual de texto longo, garantindo uma ampla gama de cenários de aplicação.
Para garantir a confiabilidade da avaliação, todas as questões do LongBench v2 são em formato de múltipla escolha e passaram por um rigoroso processo de anotação e revisão manual. A coleta de dados envolveu anotadores de universidades de ponta, assegurando a qualidade e a dificuldade das questões. Através da introdução de variáveis de controle, o LongBench v2 aprimorou o algoritmo estatístico original de Bradley-Terry, reduzindo o impacto de fatores de confusão e tornando a classificação dos modelos mais científica e precisa.
Em termos de resultados de avaliação, a equipe de pesquisa testou 10 LLMs de código aberto e 6 LLMs proprietários, descobrindo que a introdução de variáveis de controle levou a uma melhoria significativa no desempenho dos modelos. Em particular, o modelo GPT-4o, após a introdução de mais etapas de raciocínio, apresentou desempenho excepcional em tarefas como perguntas e respostas com múltiplos documentos e aprendizagem contextual de texto longo, demonstrando a importância da capacidade de raciocínio.
O lançamento do LongBench v2 não apenas fornece uma nova ferramenta para a avaliação de modelos de linguagem grandes, mas também aponta o caminho para pesquisas futuras, enfatizando a importância de melhorar a capacidade de compreensão e raciocínio dos próprios modelos. A colaboração entre o Instituto de Inteligência Artificial de Pequim e a Tencent marca um avanço no campo da IA, e espera-se que este benchmark impulsione o progresso das tecnologias de compreensão e raciocínio de texto longo.
Página inicial:https://longbench2.github.io
Artigo:https://arxiv.org/abs/2412.15204
Dados e código:https://github.com/THUDM/LongBench