ByteDance lança novo benchmark de avaliação de modelos de código de código aberto: "FullStack Bench"

Em 5 de dezembro, a equipe de modelos de linguagem grandes da ByteDance lançou o mais recente benchmark de avaliação de modelos de código — FullStack Bench —, abrangendo mais de 11 cenários reais, suportando 16 linguagens de programação e contendo 3374 problemas. Em comparação com os padrões de avaliação anteriores, este benchmark avalia com mais precisão a capacidade de desenvolvimento de código de grandes modelos em uma gama mais ampla de áreas de programação, impulsionando a otimização dos modelos em tarefas de programação do mundo real.

Os benchmarks de código atuais mais populares, como HumanEval e MBPP, geralmente se concentram em problemas de programação básicos e avançados, enquanto o DS-1000 se concentra em tarefas de análise de dados e aprendizado de máquina e suporta apenas Python. O xCodeEval concentra-se em programação avançada e matemática, apresentando limitações significativas em termos de cenários de aplicação e cobertura de linguagem. Em contraste, o FullStack Bench apresenta um aumento significativo na cobertura de dados, abrangendo mais de 11 áreas de aplicação e cenários de programação mais complexos e diversos.

O conjunto de dados do FullStack Bench origina-se do Stack Overflow, a maior plataforma mundial de perguntas e respostas sobre programação. A equipe de pesquisa selecionou os 88,1% principais das áreas de aplicação entre 500.000 problemas, garantindo a amplitude e a robustez do conjunto de dados. Cada problema inclui uma descrição detalhada do problema, uma solução de referência e casos de teste unitários, garantindo a precisão da avaliação. A equipe também realizou uma avaliação cruzada da qualidade dos dados por meio de revisão por IA e humana, melhorando ainda mais a confiabilidade dos dados.

Para facilitar o uso deste conjunto de dados pelos desenvolvedores, a equipe da ByteDance também lançou uma ferramenta de sandbox de código aberto — SandboxFusion —, que suporta a execução eficiente de tarefas de programação multilínguas. O SandboxFusion é compatível com mais de 10 conjuntos de dados de avaliação de código amplamente utilizados, suporta 23 linguagens de programação e permite que os desenvolvedores testem facilmente grandes modelos em diferentes ambientes.

Além disso, a equipe de modelos de linguagem grandes da ByteDance também apresentou pela primeira vez seu próprio modelo de código de linguagem grande — Doubao-Coder —, e realizou uma avaliação da capacidade de programação de mais de 20 modelos de código de linguagem grandes em todo o mundo. O progresso contínuo da ByteDance na área de programação de IA, especialmente por meio do modelo de base de código autodesenvolvido MarsCode, contribui com milhões de linhas de código para os usuários a cada mês, demonstrando sua posição de liderança neste campo.

Endereço do conjunto de dados de código aberto: https://huggingface.co/datasets/ByteDance/FullStackBench

Endereço do sandbox de código aberto: https://github.com/bytedance/SandboxFusion

Endereço do artigo: https://arxiv.org/pdf/2412.00535v2

Notícias e Informações de IA

ByteDance lança novo benchmark de avaliação de modelos de código de código aberto: "FullStack Bench"

AIbase基地