Une équipe de recherche de l'Université chinoise de Hong Kong (Shenzhen) et de l'Institut de recherche sur les mégadonnées de Shenzhen a récemment publié un grand modèle linguistique médical (LLM) appelé HuatuoGPT-o1. Ce modèle est spécialement conçu pour le raisonnement complexe dans le domaine médical, dans le but d'améliorer la fiabilité du diagnostic et de la prise de décision médicale. Contrairement aux LLM précédents qui se concentraient sur le raisonnement mathématique, HuatuoGPT-o1 se concentre sur le domaine médical spécifique, simulant le processus de pensée rigoureux des médecins dans leur travail quotidien, ouvrant ainsi de nouvelles voies pour le développement de l'IA médicale.
L'équipe de recherche a reconnu que le processus de raisonnement dans le domaine médical manque souvent d'étapes clairement définies et est difficile à vérifier. Pour résoudre ce problème, ils ont sélectionné 40 000 questions difficiles avec une seule réponse objective correcte à partir d'un réservoir de questions d'examens médicaux, et les ont transformées en questions ouvertes pour construire un ensemble de problèmes médicaux vérifiables. Ces questions nécessitent non seulement un raisonnement approfondi du modèle, mais permettent également de vérifier la justesse du processus de raisonnement grâce à la validation des réponses.
L'équipe de recherche a adopté une méthode d'entraînement en deux étapes pour améliorer les capacités de raisonnement du modèle. Dans la première étape, les retours du vérificateur (correct ou incorrect) guident le modèle dans une recherche basée sur des stratégies, générant des traces de raisonnement complexes. Le modèle initialise d'abord une chaîne de pensée (CoT). Si le vérificateur considère que la CoT actuelle est incorrecte, le modèle tente de revenir en arrière, d'explorer de nouvelles pistes, de vérifier ou de corriger, jusqu'à trouver la bonne réponse. Ces traces de raisonnement réussies sont ensuite utilisées pour affiner le LLM, lui conférant une capacité de raisonnement complexe avec réflexion itérative. La deuxième étape utilise les récompenses clairsemées fournies par le vérificateur pour améliorer davantage les capacités de raisonnement complexe du modèle grâce à un algorithme d'apprentissage par renforcement (RL).
Les résultats expérimentaux montrent que cette méthode, utilisant seulement 40 000 questions vérifiables, a permis à un modèle de 8 milliards de paramètres d'obtenir une amélioration de 8,5 points lors de tests de référence médicaux. Un modèle de 70 milliards de paramètres a également surpassé d'autres LLM open source, à usage général et médical, lors de plusieurs tests de référence médicaux. Ces résultats confirment l'efficacité du raisonnement complexe pour résoudre des problèmes médicaux et l'effet significatif de l'apprentissage par renforcement sur l'amélioration des performances du modèle.
L'innovation de HuatuoGPT-o1 réside dans son utilisation, pour la première fois, de problèmes médicaux vérifiables et d'un vérificateur médical pour améliorer la capacité de raisonnement complexe médical du LLM. Grâce à cette méthode, le modèle peut réfléchir en profondeur comme un médecin et s'auto-contrôler et se corriger avant de donner une réponse. Cela améliore non seulement le potentiel d'application du modèle dans le domaine médical, mais fournit également une référence pour l'amélioration des capacités de raisonnement dans d'autres domaines professionnels.
Pour vérifier la fiabilité du modèle, les chercheurs ont utilisé GPT-4o comme vérificateur. Les résultats montrent une précision de 96,5 % à la première étape et de 94,5 % à la deuxième étape. Ils ont également confirmé qu'un vérificateur basé sur LLM est plus fiable qu'une méthode de correspondance exacte traditionnelle. De plus, les chercheurs ont appliqué cette méthode au domaine médical chinois, obtenant des résultats significatifs, ce qui prouve l'adaptabilité de la méthode dans différents domaines et contextes linguistiques.
En résumé, l'apparition de HuatuoGPT-o1 marque des progrès importants de l'IA médicale en matière de raisonnement complexe. Il fournit non seulement des outils plus fiables pour le diagnostic et la prise de décision médicaux, mais offre également de nouvelles pistes pour les applications futures de l'IA dans d'autres domaines professionnels. Bien que le modèle soit encore au stade de la recherche et ne puisse pas être directement appliqué en clinique, son énorme potentiel a suscité un large intérêt.
Adresse de l'article : https://arxiv.org/pdf/2412.18925