Une équipe de l'Université de Pékin et de l'Université de Science et Technologie de Hong Kong a fait une annonce majeure : ils ont développé une méthode d'entraînement permettant à un modèle médical de 8 milliards de paramètres (8B) d'atteindre des performances comparables à celles de GPT-4. Ce n'est pas une mince affaire ; ils ont également introduit un nouveau concept, l'"écart de stabilité", pour expliquer certains phénomènes observés lors du pré-entraînement continu des grands modèles de langage.
Source : Image générée par IA, fournie par Midjourney
Tout d'abord, ils ont constaté que pendant le pré-entraînement continu, les performances du modèle dans le domaine cible diminuaient avant d'augmenter, un peu comme des montagnes russes. Pour résoudre ce problème, ils ont proposé trois stratégies. La première consiste à effectuer plusieurs tours de pré-entraînement sur des sous-ensembles de données de taille appropriée, ce qui permet une restauration des performances plus rapide qu'avec un seul tour sur un grand ensemble de données. La seconde consiste à sélectionner les sous-corpus de la plus haute qualité pour plusieurs tours de pré-entraînement. Enfin, la troisième stratégie consiste à mélanger les données pour se rapprocher de la distribution des données de pré-entraînement, ce qui rend le modèle plus stable.
Ces stratégies ont donné des résultats significatifs dans le pré-entraînement continu et l'ajustement fin par instructions dans le domaine médical, améliorant les performances tout en réduisant la charge de calcul. De plus, leur modèle Llama-3-Physician-8B open source est disponible sur HuggingFace.
L'importance de cette recherche va au-delà de ces résultats. Ils ont également découvert que grâce à ces stratégies, le modèle OpenLLaMa n'avait besoin que de 4 tours d'entraînement sur 5 milliards de données de haute qualité pour surpasser de manière significative toutes les lignes de base sur les tâches médicales. Cela a non seulement amélioré les performances, mais a également considérablement réduit la consommation de ressources de calcul.
Plus impressionnant encore, leur modèle Llama-3-Physician-8B-insturct surpasse non seulement les autres modèles open source de même taille sur les tâches de questions-réponses médicales, mais il dépasse même le modèle GPT-3.5 propriétaire et se rapproche du niveau de GPT-4. C'est une véritable révolution dans le domaine médical.
Cette recherche nous fournit non seulement une nouvelle méthode d'entraînement, mais nous montre également l'énorme potentiel des grands modèles de langage dans le domaine médical. Grâce au pré-entraînement continu et à l'ajustement fin par instructions, nous pouvons permettre aux modèles d'atteindre des performances supérieures dans des domaines spécifiques, tout en réduisant les coûts de calcul. C'est sans aucun doute une excellente nouvelle pour le secteur médical.
Cette recherche nous rappelle également que l'entraînement des grands modèles de langage n'est pas un processus unique, mais nécessite une optimisation et des ajustements constants. En introduisant le concept d'"écart de stabilité", nous pouvons mieux comprendre et résoudre les problèmes liés à l'entraînement des modèles, permettant aux modèles de jouer un rôle plus important dans des domaines spécifiques. Il ne s'agit pas seulement d'une avancée technologique, mais aussi d'une compréhension approfondie du secteur médical.
Lien de l'article : https://arxiv.org/abs/2406.14833
Lien open source : https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct