Actualités IA

Ne manquez aucun moment de l'innovation mondiale en IA

IA Quotidien

Tendances quotidiennes de l'industrie de l'IA en trois minutes

Chronologie de l'IA

Jalons de l'industrie de l'IA

Al hardware

liste tous les produits de matériel AI.

Guide de monétisation de l'IA

Derniers cas

Partage de cas de monétisation de l'IA

Collection d'images

Cas de monétisation de la création d'images par l'IA

Collection de vidéos

Cas de monétisation de la création de vidéos par l'IA

Collection audio

Cas de monétisation de la création audio par l'IA

Collection de contenu

Cas de monétisation de la rédaction de contenu par l'IA

Tutoriels IA

Derniers tutoriels

Partage gratuit des derniers tutoriels IA

Classements des produits IA

Classement des produits IA

Affiche le classement du nombre total de visites des sites web d'IA

Classement de la croissance du trafic IA

Suit les sites web d'IA à la croissance la plus rapide en termes de trafic

Classement de la baisse du trafic IA

Se concentre sur les sites web d'IA avec des baisses de trafic importantes

Classement hebdomadaire de l'IA

Affiche le classement hebdomadaire des visites des sites web d'IA

Classements des pays populaires

États-Unis

Sites web d'IA les plus populaires auprès des utilisateurs américains

Chine

Sites web d'IA les plus populaires auprès des utilisateurs chinois

Inde

Sites web d'IA les plus populaires auprès des utilisateurs indiens

Brésil

Sites web d'IA les plus populaires auprès des utilisateurs brésiliens

Classements des catégories populaires

Génération d'images

Classement du nombre total de visites des sites web de génération d'images par l'IA

Assistant personnel

Classement du nombre total de visites des sites web d'assistants personnels d'IA

Génération de personnages

Classement du nombre total de visites des sites web de génération de personnages par l'IA

Génération de vidéos

Classement du nombre total de visites des sites web de génération de vidéos par l'IA

Classements des données Open Source populaires

Classement des projets IA

Projets IA populaires sur GitHub par nombre total d'étoiles

Classement de la croissance des projets IA

Projets IA populaires sur GitHub par taux de croissance

Classement des développeurs IA

Classement des développeurs IA populaires sur GitHub

Classement des organisations IA

Classement des organisations IA populaires sur GitHub

Catégories Open Source populaires

Deepseek

Projets Open Source Deepseek populaires sur GitHub

TTS

Projets Open Source TTS populaires sur GitHub

LLM

Projets Open Source LLM populaires sur GitHub

ChatGPT

Projets Open Source ChatGPT populaires sur GitHub

Bibliothèque de projets Open Source IA

Aperçu

Aperçu des projets Open Source IA populaires sur GitHub

Bibliothèque de produits Navigation de l'outil

AWS lance SWE-PolyBench : une nouvelle référence open source pour l'évaluation des assistants de programmation IA

AIbase基地

Publié leActualités IA · 6 minutes de lecture · Apr 24, 2025

Récemment, AWS AI Labs a lancé SWE-PolyBench, un benchmark open source multilingue conçu pour fournir un cadre d'évaluation plus complet des assistants de programmation IA. Avec les progrès des grands modèles linguistiques (LLM), le développement des assistants de programmation IA a considérablement avancé, ces assistants étant capables de générer, modifier et comprendre du code logiciel. Cependant, les méthodes d'évaluation actuelles présentent encore de nombreuses limitations, de nombreux benchmarks se concentrant souvent sur une seule langue comme Python, sans refléter pleinement la structure et la diversité sémantique des référentiels de code réels.

SWE-PolyBench, en couvrant 21 référentiels de code GitHub et en prenant en charge quatre langages de programmation populaires (Java, JavaScript, TypeScript et Python), propose 2110 tâches, notamment la correction d'erreurs, la mise en œuvre de fonctionnalités et la refactorisation de code. Contrairement aux benchmarks précédents, SWE-PolyBench utilise de véritables requêtes d'extraction (PR) qui résolvent des problèmes concrets et sont fournies avec des cas de test associés, permettant ainsi une évaluation vérifiable. De plus, un sous-ensemble hiérarchique plus petit, SWE-PolyBench500, est publié pour faciliter les expériences rapides tout en conservant la diversité des tâches et des langages.

Sur le plan de la structure technique et des indicateurs d'évaluation, SWE-PolyBench utilise un processus d'évaluation basé sur l'exécution. Chaque tâche comprend un instantané du référentiel de code et une description de la tâche issue d'un problème GitHub. Le système applique les correctifs réels dans un environnement de test conteneurisé configuré pour un écosystème linguistique spécifique (Maven pour Java ou npm pour JavaScript/TypeScript). Les résultats de l'évaluation sont mesurés à l'aide de deux types de tests unitaires : de l'échec au succès (F2P) et du succès au succès (P2P).

Pour une évaluation plus approfondie des assistants de programmation, SWE-PolyBench introduit des indicateurs basés sur l'arbre syntaxique concret (CST), notamment les scores de récupération au niveau des fichiers et des nœuds, qui évaluent la capacité des assistants de programmation à localiser et à modifier les parties pertinentes du référentiel de code. Cette évaluation a adapté trois assistants de programmation open source : Aider, SWE-Agent et Agentless, qui utilisent tous le modèle Claude 3.5 d'Anthropic et ont été ajustés pour répondre aux exigences multilingues et aux référentiels de code du benchmark.

Les résultats de l'évaluation montrent des différences significatives de performance entre les différents langages de programmation et types de tâches. Par exemple, le taux de réussite des tâches Python peut atteindre 24,1 %, tandis que celui de TypeScript n'est que de 4,7 %. En termes de complexité des tâches, le taux de réussite des tâches de modification d'une seule fonction ou classe atteint 40 %, mais il diminue considérablement pour les tâches impliquant des modifications de plusieurs fichiers.

github:https://github.com/amazon-science/SWE-PolyBench

Points clés :
🌟 AWS lance SWE-PolyBench, un cadre d'évaluation complet pour les assistants de programmation IA.
🔧 Le benchmark couvre 21 référentiels de code GitHub et prend en charge quatre langages : Java, JavaScript, TypeScript et Python.
📈 L'évaluation révèle des différences de performance entre les langages et les tâches, les tâches Python affichant le taux de réussite le plus élevé.

SWE-PolyBench Assistant de programmation IA Modèles linguistiques de grande taille (LLM)AWSAILabs

Cet article provient d'AIbase Daily

Bienvenue dans la section [AI Quotidien] ! Voici votre guide pour explorer le monde de l'intelligence artificielle chaque jour. Chaque jour, nous vous présentons les points forts du domaine de l'IA, en mettant l'accent sur les développeurs, en vous aidant à comprendre les tendances technologiques et à découvrir des applications de produits IA innovantes.

—— Créé par le groupe AIbase Daily