2025-03-17 10:37:36.AIbase.
Le jeu vidéo Factorio devient un nouvel outil d'évaluation des capacités de l'IA
2025-02-20 10:37:18.AIbase.
Évaluation récente d'OpenAI : les capacités de programmation de l'IA atteignent le quart de celles des humains, révélant des limites
2025-02-20 09:14:14.AIbase.
Classement des hallucinations des grands modèles linguistiques IA : Gemini 2.0 Flash affiche le taux d'hallucinations le plus bas
2025-02-13 11:24:16.AIbase.
Une étude révèle que ChatGPT surpasse les thérapeutes humains dans les évaluations de réponses en psychothérapie
2025-01-10 15:49:29.AIbase.
Le modèle GLM-4-9B de Zhihu affiche un taux d'hallucination de seulement 1,3 % et remporte le premier prix dans l'évaluation mondiale des grands modèles
2025-01-02 14:30:40.AIbase.
Une étude de Microsoft révèle-t-elle à nouveau les paramètres des modèles OpenAI ? Évaluation de l'IA médicale révèle que 4o-mini ne possède que 8 milliards de paramètres
2025-01-02 09:52:52.AIbase.
L'Université Jiao Tong de Shanghai révèle les inconvénients de l'évaluation par IA : une seule phrase peut considérablement améliorer la note d'un article
2024-12-26 09:58:14.AIbase.
L'IA commente les matchs de football : identification des fautes, évaluation de leur gravité et commentaires
2024-12-20 16:10:44.AIbase.
LongBench v2 : un nouveau benchmark pour l'évaluation des modèles de langage de grande taille (LLM) sur les longs textes, développé par l'Institut d'Intelligence Artificielle de Pékin (BAAI) et Tencent
2024-12-19 17:47:00.AIbase.
Amélioration de CompassArena, la plateforme d'évaluation des grands modèles, avec le lancement de la nouvelle fonctionnalité Judge Copilot
2024-12-19 14:07:19.AIbase.
L'IA n'est pas infaillible : une nouvelle étude révèle des troubles cognitifs similaires à la démence précoce dans les modèles d'IA de pointe
2024-12-09 17:08:28.AIbase.
L'arène des chatbots IA : comment Chatbot Arena change les règles du jeu pour les entreprises technologiques
2024-12-05 14:45:53.AIbase.
ByteDance lance FullStack Bench, une nouvelle référence pour l'évaluation des grands modèles de code
2024-11-18 14:29:39.AIbase.
Les modèles de diffusion peuvent-ils aussi jouer à des jeux ? DIAMOND établit un nouveau record pour l'évaluation Atari 100k
2024-11-15 14:45:38.AIbase.
Face-à-face entre IA sur Minecraft ! La nouvelle version de Claude impressionne le web
2024-10-15 16:57:33.AIbase.
Évaluation technique de PDFtoChat : système de recherche d'informations PDF basé sur la conversation IA
2024-10-15 16:57:21.AIbase.
Évaluation de PDFtoChat : décryptage facile des documents PDF grâce à l’IA conversationnelle
2024-10-15 16:57:03.AIbase.
Évaluation approfondie de PDFtoChat : un outil d'extraction d'informations PDF conversationnel optimisé par l'IA
2024-10-15 16:29:12.AIbase.
Évaluation de PDFtoChat : expérience approfondie et analyse des avantages et des inconvénients
2024-10-15 16:28:44.AIbase.