Notícias de IA

Não perca nenhum momento da inovação global em IA

IA Diário

Tendências diárias da indústria de IA em três minutos

Linha do Tempo da IA

Marcos da indústria de IA

Al hardware

lista todos os produtos de hardware AI.

Guia de Monetização de IA

Casos Recentes

Compartilhamento de casos de monetização de IA

Coleção de Imagens

Casos de monetização de criação de imagens por IA

Coleção de Vídeos

Casos de monetização de criação de vídeos por IA

Coleção de Áudios

Casos de monetização de criação de áudios por IA

Coleção de Conteúdo

Casos de monetização de escrita de conteúdo por IA

Tutoriais de IA

Tutoriais Recentes

Compartilhamento gratuito dos tutoriais de IA mais recentes

Rankings de Produtos de IA

Ranking de Produtos de IA

Mostra o ranking total de visitas de sites de IA

Ranking de Crescimento de Tráfego de IA

Rastreia os sites de IA de crescimento mais rápido por tráfego

Ranking de Queda de Tráfego de IA

Foco em sites de IA com quedas significativas de tráfego

Ranking Semanal de IA

Mostra o ranking semanal de visitas de sites de IA

Rankings de Países Populares

Estados Unidos

Sites de IA mais populares entre os usuários dos EUA

China

Sites de IA mais populares entre os usuários chineses

Índia

Sites de IA mais populares entre os usuários indianos

Brasil

Sites de IA mais populares entre os usuários brasileiros

Rankings de Categorias Populares

Geração de Imagens

Ranking total de visitas de sites de geração de imagens de IA

Assistente Pessoal

Ranking total de visitas de sites de assistentes pessoais de IA

Geração de Personagens

Ranking total de visitas de sites de geração de personagens de IA

Geração de Vídeos

Ranking total de visitas de sites de geração de vídeos de IA

Rankings de Dados de Código Aberto Populares

Ranking de Projetos de IA

Projetos de IA populares no GitHub por total de estrelas

Ranking de Crescimento de Projetos de IA

Projetos de IA populares no GitHub por taxa de crescimento

Ranking de Desenvolvedores de IA

Ranking de desenvolvedores de IA populares no GitHub

Ranking de Organizações de IA

Ranking de organizações de IA populares no GitHub

Categorias de Código Aberto Populares

Deepseek

Projetos de código aberto Deepseek populares no GitHub

TTS

Projetos de código aberto TTS populares no GitHub

LLM

Projetos de código aberto LLM populares no GitHub

ChatGPT

Projetos de código aberto ChatGPT populares no GitHub

Biblioteca de Projetos de Código Aberto de IA

Visão Geral

Visão geral dos projetos de código aberto de IA populares no GitHub

Biblioteca de produtos Navegação de ferramentas

ByteDance lança Multi-SWE-bench de código aberto para impulsionar a atualização inteligente de código de modelos grandes

AIbase基地

Publicado emNotícias e Informações de IA · 5 minutos de leitura · Apr 10, 2025

Recentemente, a equipe do modelo de linguagem grande Doubao da ByteDance anunciou o lançamento em código aberto do Multi-SWE-bench, o primeiro conjunto de dados de benchmark de reparo de código multilíngue do setor, representando um novo avanço na avaliação e melhoria da capacidade de "correção automática de bugs" dos modelos de linguagem grandes.

Com o rápido desenvolvimento da tecnologia de modelos de linguagem grandes, as tarefas de geração de código tornaram-se uma área crucial para testar a inteligência dos modelos. Benchmarks de reparo de código, como o SWE-bench, embora possam avaliar a inteligência de programação dos modelos, apresentam limitações significativas. Eles se concentram apenas na linguagem Python, não conseguindo avaliar a capacidade de generalização entre linguagens do modelo; além disso, a dificuldade das tarefas é limitada, não abrangendo cenários de desenvolvimento complexos, o que restringe o desenvolvimento da inteligência de código dos modelos de linguagem grandes.

Pontuações de avaliação de capacidade de código para diferentes modelos

O Multi-SWE-bench surge para atender a essa necessidade, representando um grande avanço em relação ao SWE-bench. Pela primeira vez, ele abrange sete linguagens de programação principais: Java, TypeScript, C, C++, Go, Rust e JavaScript, construindo 1632 tarefas de reparo originárias de repositórios de código aberto reais. Essas tarefas foram rigorosamente selecionadas e verificadas manualmente para garantir a confiabilidade da qualidade. Além disso, o Multi-SWE-bench introduz um mecanismo de classificação de dificuldade, dividindo as tarefas em três níveis: fácil, médio e difícil, permitindo uma avaliação mais abrangente do desempenho do modelo em diferentes níveis de capacidade.

Experimentos baseados neste conjunto de dados mostram que os modelos de linguagem grandes atuais apresentam desempenho aceitável na correção de código Python, mas a taxa média de correção para outras linguagens é inferior a 10%, destacando que o reparo de código multilíngue ainda representa um desafio para os modelos de linguagem grandes.

Alguns modelos principais apresentam desempenho superior em Python, mas pontuações mais baixas para outras linguagens. Além disso, à medida que a dificuldade da tarefa aumenta, a taxa de correção do modelo diminui gradualmente.

Para apoiar o uso do aprendizado por reforço no campo da programação automática, a equipe também lançou em código aberto o Multi-SWE-RL, fornecendo 4723 instâncias e um ambiente Docker reprodutível, com suporte para inicialização com um único clique e avaliação automática, criando uma base de dados padronizada para treinamento de RL. Além disso, a equipe iniciou um programa de comunidade de código aberto, convidando desenvolvedores e pesquisadores a participar da expansão do conjunto de dados, avaliação de novos métodos e outros trabalhos, promovendo coletivamente a construção do ecossistema RL for Code.

A equipe do modelo de linguagem grande Doubao da ByteDance afirma que espera que o Multi-SWE-bench impulsione a tecnologia de programação automática para novas alturas e que continuará expandindo sua abrangência no futuro, ajudando os modelos de linguagem grandes a alcançar progressos significativos na área de "engenharia de software automatizada".

Este artigo é do AIbase Daily

Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.

—— Criado pelo Grupo AIbase Daily