Récemment, le projet d'intelligence artificielle Gemini de Google améliore ses performances en comparant ses résultats à ceux du modèle Claude d'Anthropic. Des communications internes obtenues par TechCrunch révèlent que des contractuels chargés de l'amélioration de Gemini évaluent systématiquement les réponses des deux modèles d'IA.
Source : Image générée par IA, fournie par Midjourney
Dans l'industrie de l'IA, l'évaluation des performances des modèles se fait généralement au moyen de tests de référence sectoriels, et non par une comparaison minutieuse des réponses des différents modèles par des contractuels. Les contractuels responsables de Gemini doivent noter les résultats des modèles selon plusieurs critères, notamment la véracité et le niveau de détail. Ils disposent de 30 minutes pour déterminer quelle réponse, celle de Gemini ou celle de Claude, est la meilleure.
Récemment, ces contractuels ont remarqué la fréquence des références à Claude sur la plateforme interne qu'ils utilisent. Une partie du contenu présenté aux contractuels indique clairement : « Je suis Claude, créé par Anthropic. » Lors d'une conversation interne, les contractuels ont également constaté que les réponses de Claude mettaient davantage l'accent sur la sécurité. Certains contractuels ont indiqué que les paramètres de sécurité de Claude étaient les plus stricts de tous les modèles d'IA. Dans certains cas, Claude choisit de ne pas répondre aux invites qu'il juge dangereuses, comme l'interprétation de rôle d'autres assistants IA. Dans un autre cas, Claude a évité une invite, tandis que la réponse de Gemini a été signalée comme une « violation de sécurité majeure » en raison de son contenu « nudité et liens ».
Il est important de noter que les conditions générales d'Anthropic interdisent aux clients d'utiliser Claude sans autorisation pour « créer des produits ou services concurrents » ou « entraîner des modèles d'IA concurrents ». Google est l'un des principaux investisseurs d'Anthropic.
Shira McNamara, porte-parole de Google DeepMind, interrogée par TechCrunch, n'a pas révélé si Google avait obtenu l'autorisation d'Anthropic pour utiliser Claude. McNamara a déclaré que DeepMind comparait effectivement les résultats des modèles pour les évaluer, mais qu'elle n'utilisait pas le modèle Claude pour entraîner Gemini. Elle a ajouté : « Bien sûr, conformément aux pratiques courantes du secteur, nous comparons les résultats des modèles dans certains cas. Cependant, toute affirmation concernant l'utilisation du modèle Anthropic pour entraîner Gemini est inexacte. »
La semaine dernière, TechCrunch a également rapporté en exclusivité que les contractuels de Google étaient chargés d'évaluer les réponses de l'IA de Gemini en dehors de leur domaine d'expertise. Certains contractuels ont exprimé leurs inquiétudes dans des communications internes, estimant que Gemini pouvait générer des informations inexactes sur des sujets sensibles tels que les soins de santé.
Points clés :
🌟 Gemini est testé en comparaison avec Claude pour améliorer les performances de son modèle d'IA.
🔍 Des contractuels sont chargés de noter les réponses, la comparaison impliquant plusieurs critères, notamment la véracité et la sécurité.
🚫 Anthropic interdit l'utilisation de Claude sans autorisation pour entraîner des modèles concurrents.