Une étude par les pairs récemment publiée dans la revue Cureus révèle que le modèle linguistique GPT-4 d'OpenAI a réussi l'examen national japonais de physiothérapie sans aucune formation supplémentaire.

Les chercheurs ont soumis à GPT-4 1 000 questions couvrant la mémorisation, la compréhension, l'application, l'analyse et l'évaluation. Les résultats montrent que GPT-4 a répondu correctement à 73,4 % des questions au total, réussissant toutes les cinq parties du test. Cependant, l'étude a également mis en lumière les limites de l'IA dans certains domaines.

QQ20240902-090345.png

GPT-4 a excellé dans les questions générales, avec un taux de réussite de 80,1 %, mais seulement 46,6 % pour les questions pratiques. De même, il a beaucoup mieux performé sur les questions textuelles pures (80,5 % de réussite) que sur celles comportant des images et des tableaux (35,4 % de réussite). Cette découverte est cohérente avec les résultats d'études antérieures sur les limites de la compréhension visuelle de GPT-4.

Il est à noter que la difficulté des questions et la longueur du texte n'ont pas eu un impact significatif sur les performances de GPT-4. Bien que le modèle ait été principalement entraîné sur des données anglaises, il a également bien fonctionné avec des entrées japonaises.

QQ20240902-090359.png

Les chercheurs soulignent que, bien que cette étude montre le potentiel de GPT-4 dans la réadaptation clinique et l'enseignement médical, il faut rester prudent. Ils insistent sur le fait que GPT-4 ne répond pas correctement à toutes les questions et qu'il faudra évaluer les nouvelles versions ainsi que les capacités du modèle dans les tests écrits et de raisonnement.

QQ20240902-090419.png

En outre, les chercheurs suggèrent que des modèles multimodaux comme GPT-4v pourraient apporter des améliorations supplémentaires en matière de compréhension visuelle. Actuellement, des modèles d'IA médicale spécialisés tels que Med-PaLM2 et Med-Gemini de Google, ainsi que le modèle médical de Meta basé sur Llama3, sont en cours de développement actif, visant à surpasser les modèles généraux dans les tâches médicales.

Cependant, les experts estiment qu'il faudra encore beaucoup de temps avant que les modèles d'IA médicale ne soient largement utilisés en pratique. La marge d'erreur des modèles actuels reste trop importante en milieu médical ; des progrès significatifs en matière de raisonnement sont nécessaires pour intégrer ces modèles en toute sécurité dans la pratique médicale quotidienne.