Le modèle Gemini de Google, né il y a seulement six mois, a déjà démontré des capacités remarquables dans des domaines tels que la sécurité, le codage et le débogage. Bien sûr, il présente aussi des limitations importantes. Cependant, ce grand modèle linguistique (LLM) surpasse les humains en matière de conseils sur le sommeil et le fitness.
Les chercheurs de Google ont présenté le modèle linguistique de grande taille pour la santé personnelle (PH-LLM), une version affinée de Gemini, capable de comprendre et d'inférer des données personnelles de santé en séries temporelles provenant de dispositifs portables (comme les montres intelligentes et les moniteurs de fréquence cardiaque). Dans leurs expériences, le modèle a fourni des réponses et des prédictions nettement supérieures à celles d'experts ayant de nombreuses années d'expérience dans les domaines de la santé et du fitness.
Les technologies portables peuvent aider les individus à surveiller leur santé et, dans l’idéal, à apporter des changements significatifs. Ces dispositifs fournissent une « source de données riche et à long terme » qui peut être « passivement et continuellement » acquise à partir d’entrées telles que les journaux d’exercices et d’alimentation, les journaux d’humeur, et parfois même l’activité sur les médias sociaux. Cependant, les données qu’ils capturent sur le sommeil, l’activité physique, la santé cardiométabolique et le stress sont rarement intégrées dans les environnements cliniques « fragmentaires ». Les chercheurs supposent que cela est probablement dû au manque de contexte lors de la capture des données et à la puissance de calcul importante nécessaire pour le stockage et l’analyse. De plus, l’interprétation de ces données peut être complexe.
Cependant, les chercheurs de Google ont réalisé une percée en entraînant le modèle PH-LLM pour fournir des conseils, répondre à des questions d’examens professionnels et prédire les résultats autodéclarés des troubles du sommeil et des troubles du sommeil. Le modèle a reçu des questions à choix multiples, et les chercheurs ont utilisé la « chaîne de pensée » (imitant le raisonnement humain) et la méthode « zero-shot » (identification d’objets et de concepts non rencontrés auparavant).
Il est impressionnant de constater que le PH-LLM a obtenu un score de 79 % à l’examen sur le sommeil et de 88 % à l’examen sur le fitness, dépassant dans les deux cas la moyenne d’un échantillon d’experts humains, comprenant cinq entraîneurs sportifs professionnels (expérience moyenne de 13,8 ans) et cinq experts en médecine du sommeil (expérience moyenne de 25 ans). La moyenne des scores des experts humains pour le fitness et le sommeil était respectivement de 71 % et 76 %.
Les chercheurs soulignent : « Bien que des travaux de développement et d’évaluation supplémentaires soient nécessaires dans le domaine de la santé personnelle, ces résultats démontrent la vaste base de connaissances et les capacités du modèle Gemini. »
Pour obtenir ces résultats, les chercheurs ont d’abord créé et organisé trois ensembles de données pour tester les informations et les conseils personnalisés provenant de dispositifs portables, les connaissances spécialisées et les prédictions de la qualité du sommeil autodéclarée. Ils ont collaboré avec des experts du domaine pour créer 857 études de cas, représentant des scénarios réels dans les domaines du sommeil et du fitness. Les scénarios de sommeil utilisent des indicateurs individuels pour identifier les facteurs potentiels et fournir des conseils personnalisés pour améliorer la qualité du sommeil. Les tâches de fitness utilisent des informations provenant de l’entraînement, du sommeil, des indicateurs de santé et des commentaires des utilisateurs pour établir des recommandations concernant l’intensité de l’activité physique d’une journée donnée.
Les deux types d’études de cas comprenaient des données de capteurs portables, notamment des données sur le sommeil sur une période allant jusqu’à 29 jours, des données sur le fitness sur une période de plus de 30 jours, ainsi que des informations démographiques (âge et sexe) et des analyses d’experts.
Bien que les chercheurs aient noté que le PH-LLM n’est qu’un début et qu’il présente, comme toute nouvelle technologie, certains problèmes à résoudre. Par exemple, les réponses générées par le modèle ne sont pas toujours cohérentes, des « différences significatives » fictives existent dans les études de cas, et le LLM est parfois prudent ou hésitant dans ses réponses. Dans les études de cas sur le fitness, le modèle est très sensible au surentraînement, et dans un cas, un expert humain a remarqué qu’il n’avait pas réussi à identifier la cause potentielle de blessures pouvant être liées à un manque de sommeil. De plus, les études de cas couvrent largement diverses données démographiques et des individus relativement actifs, et ne représentent donc pas forcément la population générale et ne permettent pas de résoudre des problèmes plus vastes liés au sommeil et au fitness.