Une nouvelle étude suggère que le système d'intelligence artificielle o1-preview d'OpenAI pourrait surpasser les médecins humains dans le diagnostic de cas médicaux complexes. Une équipe de recherche de la Harvard Medical School et de l'Université de Stanford a soumis o1-preview à des tests de diagnostic médicaux complets, révélant des progrès significatifs par rapport aux versions précédentes.
Selon les résultats de l'étude, o1-preview a atteint un taux de diagnostic correct de 78,3 % sur tous les cas testés. Dans une comparaison directe sur 70 cas spécifiques, le système a atteint un taux de précision de 88,6 %, dépassant nettement son prédécesseur, GPT-4, qui affichait un taux de 72,9 %. Les performances d'o1-preview en matière de raisonnement médical sont également remarquables. Utilisant l'échelle R-IDEA, un standard d'évaluation de la qualité du raisonnement médical, le système d'IA a obtenu un score parfait sur 78 cas sur 80. En comparaison, des médecins expérimentés n'ont obtenu un score parfait que sur 28 cas, et les médecins résidents sur seulement 16 cas.
Les chercheurs reconnaissent que les données d'entraînement d'o1-preview pouvaient inclure certains des cas testés. Cependant, lors de tests sur de nouveaux cas, les performances n'ont diminué que légèrement. Le Dr Adam Rodman, l'un des auteurs de l'étude, souligne que, bien qu'il s'agisse d'une étude de référence, les résultats ont des implications importantes pour la pratique médicale.
o1-preview s'est particulièrement distingué dans le traitement de cas de gestion complexes spécialement conçus par 25 experts. « Les humains étaient dépassés par ces problèmes difficiles, mais les performances de o1 ont été étonnantes », explique Rodman. Sur ces cas complexes, o1-preview a obtenu un score de 86 %, tandis que les médecins utilisant GPT-4 n'ont obtenu que 41 %, et les outils traditionnels seulement 34 %.
Cependant, o1-preview n'est pas sans défauts. Ses performances en matière d'évaluation probabiliste ne se sont pas améliorées de manière significative. Par exemple, pour évaluer la probabilité d'une pneumonie, o1-preview a donné une estimation de 70 %, bien supérieure à la fourchette scientifique de 25 % à 42 %. Les chercheurs ont constaté qu'o1-preview excellait dans les tâches nécessitant une pensée critique, mais qu'il était moins performant dans les défis plus abstraits, comme l'estimation des probabilités.
De plus, o1-preview fournit généralement des réponses détaillées, ce qui pourrait avoir amélioré son score. Cependant, l'étude s'est concentrée sur le fonctionnement indépendant d'o1-preview et n'a pas évalué son efficacité en collaboration avec des médecins. Certains critiques ont souligné que les tests diagnostiques suggérés par o1-preview étaient souvent coûteux et irréalistes.
Bien qu'OpenAI ait publié de nouvelles versions de o1 et o3, excellant dans les tâches de raisonnement complexes, ces modèles plus puissants n'ont pas encore résolu les problèmes d'application pratique et de coût soulevés par les critiques. Rodman appelle à de meilleures méthodes d'évaluation des systèmes d'IA médicale afin de saisir la complexité des décisions médicales réelles. Il souligne que cette étude ne signifie pas que les médecins peuvent être remplacés, et que la pratique médicale nécessite toujours une intervention humaine.
Article : https://arxiv.org/abs/2412.10849
Points clés :
🌟 o1-preview dépasse les médecins en termes de taux de diagnostic, atteignant une précision de 88,6 %.
🧠 En matière de raisonnement médical, o1-preview a obtenu un score parfait sur 78 cas sur 80, surpassant largement les performances des médecins.
💰 Malgré d'excellentes performances, les coûts élevés et les suggestions de tests irréalistes d'o1-preview en application pratique restent à résoudre.