Page de recherche d'actualités et de produits IA

Type :

Actualités
Applications de produits
Études de monétisation
Tutoriels IA

2025-02-18 16:55:26.AIbase

OpenAI lance SWE-Lancer : une nouvelle référence pour évaluer les performances des modèles sur les tâches réelles de freelancing en ingénierie logicielle

Dans le domaine de l'ingénierie logicielle, les méthodes traditionnelles de benchmark sont dépassées face à l'évolution des défis. Le travail de freelance en ingénierie logicielle est complexe et varié, allant bien au-delà de tâches de codage isolées. Les ingénieurs freelances doivent gérer des bases de code entières, intégrer divers systèmes et répondre à des exigences client complexes. Les méthodes d'évaluation traditionnelles, souvent axées sur les tests unitaires, ne reflètent pas pleinement les performances full-stack et l'impact économique réel des solutions. Il est donc crucial de développer des méthodes d'évaluation plus réalistes. C'est pourquoi OpenAI a lancé SWE-Lan

2024-12-25 09:22:05.AIbase

Record battu ! Le nouveau modèle o3 d'OpenAI fait sensation sur le benchmark ARC-AGI

Le dernier modèle d'OpenAI, o3, a obtenu des résultats étonnants sur le benchmark ARC-AGI, atteignant un score impressionnant de 75,7 % dans des conditions de calcul standard et même 87,5 % dans une version à calcul intensif. Cette performance a surpris la communauté de la recherche en IA, bien qu'elle ne prouve pas que l'intelligence artificielle générale (AGI) ait été résolue. Le benchmark ARC-AGI est basé sur l'Abstract Reasoning Corpus, un test conçu pour évaluer la capacité des systèmes d'IA à s'adapter à de nouvelles tâches.

2024-12-20 16:10:44.AIbase

LongBench v2 : un nouveau benchmark pour l'évaluation des modèles de langage de grande taille (LLM) sur les longs textes, développé par l'Institut d'Intelligence Artificielle de Pékin (BAAI) et Tencent

Lors d'une conférence de presse le 19 décembre 2024, l'Institut d'Intelligence Artificielle de Pékin (BAAI) et Tencent ont annoncé le lancement de LongBench v2, un benchmark spécialement conçu pour évaluer la capacité de compréhension et de raisonnement en profondeur des modèles de langage de grande taille (LLM) sur des tâches multitâches impliquant de longs textes dans des contextes réels. Cette plateforme vise à stimuler les progrès des modèles de longs textes en matière de compréhension et de raisonnement, répondant ainsi aux défis actuels posés par les LLM traitant de longs textes dans les applications.

2024-12-15 10:23:35.AIbase

Alibaba lance PROCESSBENCH, un nouveau benchmark IA pour évaluer la capacité de détection d'erreurs dans le raisonnement mathématique

Les chercheurs de l'équipe Qwen d'Alibaba ont récemment lancé un nouveau benchmark appelé "PROCESSBENCH", conçu pour mesurer la capacité des modèles linguistiques à identifier les erreurs de procédure dans le raisonnement mathématique. Alors que les modèles linguistiques progressent de manière significative dans les tâches de raisonnement complexes, les chercheurs de ce domaine ont constaté que, malgré d'excellentes performances, ces modèles rencontrent encore des difficultés avec certains problèmes ardus. Par conséquent, le développement d'une méthode de supervision efficace est particulièrement important. Actuellement, les benchmarks d'évaluation pour les modèles linguistiques présentent certaines lacunes.

2024-12-10 11:31:07.AIbase

Le benchmark ARC-AGI sur le point d'être dépassé, mais son créateur met en garde contre des failles de conception

Un benchmark important dans le domaine de l'intelligence artificielle, ARC-AGI, ou « Corpus d'Abstraction et de Raisonnement pour l'Intelligence Artificielle Générale », est sur le point d'être dépassé. Cependant, son créateur, François Chollet, met en garde contre le fait que, malgré l'amélioration des scores, cela ne signifie pas que nous nous rapprochons de l'Intelligence Artificielle Générale (AGI). Il souligne que le test lui-même présente des failles de conception et qu'il ne reflète pas de véritables percées de recherche. Depuis le lancement d'ARC-AGI par Chollet en 2019, les systèmes d'IA ont progressé dans les tests

2024-08-16 14:03:40.AIbase

Geekbench lance un nouveau benchmark IA pour évaluer les performances des appareils sur les tâches d'IA

Geekbench AI est un nouvel outil multiplateforme conçu pour évaluer les charges de travail intensives en IA. Il mesure les performances du CPU, du GPU et du NPU de l'appareil et prend en charge plusieurs frameworks d'apprentissage automatique pour déterminer la capacité de l'appareil à gérer les applications d'IA. Geekbench AI fournit des scores en précision entière, demi-précision et quantifiée, ainsi qu'une évaluation de la précision pour aider les utilisateurs à comprendre le degré de fidélité avec lequel un modèle effectue une tâche. Disponible sur Windows, macOS, Linux et Android.

2024-08-16 09:49:46.AIbase

Le nouveau benchmark Geekbench AI teste les performances du CPU, du GPU et du NPU

Geekbench AI est un nouvel outil multiplateforme qui évalue les performances des appareils pour les charges de travail intensives, en se concentrant particulièrement sur les tâches d'apprentissage automatique. Il fournit des scores de précision entière, de demi-précision et quantifiés en mesurant les performances du CPU, du GPU et du NPU, et intègre une évaluation de la précision. Il prend en charge plusieurs frameworks d'apprentissage automatique, notamment ONNX, CoreML, TensorFlow Lite et OpenVINO. Cet outil est disponible sur Windows, macOS, Linux, Android et iOS.

2024-08-07 16:35:17.AIbase

L'Institut de recherche en technologie de communication de l'Université de Pékin publie LooGLE, un benchmark extrêmement difficile pour tester la compréhension de longs textes ; les grands modèles linguistiques sont mis en échec !

La compréhension de longs contextes est un défi majeur dans le domaine du traitement du langage naturel, en particulier pour les grands modèles linguistiques (LLM) lorsqu'ils traitent des textes dépassant la taille de leur fenêtre contextuelle. Pour résoudre ce problème, des chercheurs ont développé le benchmark LooGLE, visant à évaluer les capacités de compréhension de longs contextes des LLM lors du traitement de documents très longs (19 300 mots en moyenne, 776 documents au total, couvrant plusieurs domaines). LooGLE comprend 7 tâches, couvrant les dépendances courtes et longues, et évaluant la compréhension des modèles pour des textes de différentes longueurs. Les données de test proviennent de publications de 2022 et ultérieures.

2024-07-02 09:07:20.AIbase

Anthropic lance un programme de financement pour le développement de benchmarks d'évaluation de l'IA

Anthropic a annoncé lundi le lancement d'un nouveau programme visant à financer le développement de nouveaux benchmarks capables d'évaluer les performances et l'impact des modèles d'IA, y compris les modèles génératifs tels que son propre modèle Claude.

2024-06-17 14:58:57.AIbase

LVBench : Lancement d'un benchmark collaboratif de compréhension de vidéos longues par Tsinghua et Pékin

Récemment, Zhipu, l'Université Tsinghua et l'Université de Pékin ont collaboré pour lancer LVBench, un projet de benchmark pour la compréhension de vidéos longues. Bien que les grands modèles de langage multimodaux aient fait des progrès significatifs dans la compréhension de courtes vidéos, ils restent confrontés à des défis lorsqu'il s'agit de traiter des vidéos longues de plusieurs heures. LVBench a été créé pour combler cette lacune.

2023-12-25 14:12:47.AIbase

L'Institut de Recherche sur l'Intelligence Artificielle (AIR) publie TACO, un ensemble de données d'entraînement pour la génération de code

L'Institut de Recherche sur l'Intelligence Artificielle (AIR) a publié TACO, un ensemble de données d'entraînement pour la génération de code, visant à fournir aux modèles de génération de code des données d'entraînement et des benchmarks plus stimulants. TACO présente des avantages en termes d'échelle de données, de qualité et de méthodes d'évaluation, notamment un ensemble d'entraînement et un ensemble de test plus importants, des solutions diversifiées et des étiquettes granulaires. Les résultats expérimentaux montrent que les modèles de génération de code populaires actuels présentent des différences significatives avec GPT-4 dans les évaluations TACO, ce qui indique qu'il y a encore place à l'amélioration dans ce domaine. TACO non seulement...

2023-12-12 16:20:29.AIbase

智谱 AI 发布中文 LLM 对齐评测基准 AlignBench

智谱 AI 发布了针对中文大模型的评测基准 AlignBench。AlignBench 能够在多维度上细致评测模型和人类意图的对齐水平。数据集分为 8 个大类，包括知识问答、写作生成、角色扮演等多种类型的问题。开发者可以利用 AlignBench 进行评测，并使用评价能力较强的打分模型进行评分。通过登录 AlignBench 网站，提交结果可以使用。

2023-11-02 15:21:41.AIbase

Ant Group publie un benchmark de modèles de langage volumineux pour le domaine DevOps

Ant Group, en collaboration avec l'Université de Pékin, publie un benchmark de modèles de langage volumineux pour le domaine DevOps. Ce benchmark comprend des questions à choix multiples réparties en 8 catégories : planification, codage, construction, test et déploiement, etc. Au total, il contient 4850 questions. Le benchmark propose également une ventilation spécifique pour les tâches AIOps. Les résultats montrent des scores assez proches entre les différents modèles.

2023-08-09 14:07:10.AIbase

Une équipe de Tsinghua lance le premier benchmark systématique pour les agents IA

Le premier benchmark systématique pour les agents IA est lancé, évaluant 25 modèles linguistiques différents. Les résultats montrent que GPT-4 se démarque nettement. Les modèles linguistiques commerciaux haut de gamme surpassent les modèles open source dans des environnements complexes. L'équipe de recherche recommande d'améliorer les capacités d'apprentissage des modèles open source.

Recherchez la dynamique mondiale des produits IA

Recherchez des informations sur l'IA mondiale et découvrez de nouvelles opportunités d'IA

OpenAI lance SWE-Lancer : une nouvelle référence pour évaluer les performances des modèles sur les tâches réelles de freelancing en ingénierie logicielle

Record battu ! Le nouveau modèle o3 d'OpenAI fait sensation sur le benchmark ARC-AGI

LongBench v2 : un nouveau benchmark pour l'évaluation des modèles de langage de grande taille (LLM) sur les longs textes, développé par l'Institut d'Intelligence Artificielle de Pékin (BAAI) et Tencent

Alibaba lance PROCESSBENCH, un nouveau benchmark IA pour évaluer la capacité de détection d'erreurs dans le raisonnement mathématique

Le benchmark ARC-AGI sur le point d'être dépassé, mais son créateur met en garde contre des failles de conception

Geekbench lance un nouveau benchmark IA pour évaluer les performances des appareils sur les tâches d'IA

Le nouveau benchmark Geekbench AI teste les performances du CPU, du GPU et du NPU

L'Institut de recherche en technologie de communication de l'Université de Pékin publie LooGLE, un benchmark extrêmement difficile pour tester la compréhension de longs textes ; les grands modèles linguistiques sont mis en échec !

Anthropic lance un programme de financement pour le développement de benchmarks d'évaluation de l'IA

LVBench : Lancement d'un benchmark collaboratif de compréhension de vidéos longues par Tsinghua et Pékin

L'Institut de Recherche sur l'Intelligence Artificielle (AIR) publie TACO, un ensemble de données d'entraînement pour la génération de code

智谱 AI 发布中文 LLM 对齐评测基准 AlignBench

Ant Group publie un benchmark de modèles de langage volumineux pour le domaine DevOps

Une équipe de Tsinghua lance le premier benchmark systématique pour les agents IA