Googles Gemini-Modell, erst sechs Monate alt, zeigt bereits beeindruckende Fähigkeiten in den Bereichen Sicherheit, Codierung und Debugging – natürlich mit gravierenden Einschränkungen. In Sachen Schlaf- und Fitnessberatung übertrifft es jedoch menschliche Experten.

Forscher von Google haben das persönliche Gesundheits-Sprachmodell (PH-LLM) vorgestellt, eine fein abgestimmte Version von Gemini. Es kann Zeitreihendaten zur persönlichen Gesundheit von Wearables (wie Smartwatches und Herzfrequenzmesser) verstehen und verarbeiten. In ihren Experimenten lieferte das Modell deutlich bessere Antworten und Vorhersagen als Experten mit jahrelanger Erfahrung im Gesundheits- und Fitnessbereich.

Googles großes Sprachmodell Gemini

Wearables helfen Menschen, ihre Gesundheit zu überwachen und im Idealfall sinnvolle Veränderungen vorzunehmen. Diese Geräte liefern eine „reiche und langfristige Datenquelle“, die „passiv und kontinuierlich“ aus Bewegungsprotokollen, Ernährungstagebüchern, Stimmungsprotokollen und manchmal sogar Social-Media-Aktivitäten gewonnen werden kann. Die erfassten Daten zu Schlaf, körperlicher Aktivität, Herz-Kreislauf-Gesundheit und Stress werden jedoch selten in den „fragmentierten“ klinischen Alltag integriert. Die Forscher vermuten, dass dies an fehlenden Kontextinformationen bei der Datenerfassung und dem hohen Rechenaufwand für die Speicherung und Analyse liegt. Auch die Interpretation dieser Daten kann schwierig sein.

Dennoch gelang es den Google-Forschern, das PH-LLM-Modell so zu trainieren, dass es Empfehlungen gibt, Fragen in Fachprüfungen beantwortet und selbstberichteten Schlafstörungen und -störungen vorhersagt. Das Modell erhielt Multiple-Choice-Fragen; die Forscher verwendeten „Chain of Thought“ (Simulation menschlicher Argumentation) und die „Zero-Shot“-Methode (Erkennung zuvor unbekannter Objekte und Konzepte).

Beeindruckend ist, dass PH-LLM in der Schlafprüfung 79 % und in der Fitnessprüfung 88 % erreichte – beides über dem Durchschnitt einer Stichprobe menschlicher Experten: fünf professionelle Fitnesstrainer (durchschnittlich 13,8 Jahre Erfahrung) und fünf Schlafmediziner (durchschnittlich 25 Jahre Erfahrung). Die menschlichen Experten erzielten durchschnittlich 71 % in Fitness und 76 % in Schlaf.

Die Forscher betonen: „Obwohl im Bereich der persönlichen Gesundheit noch weitere Entwicklungen und Bewertungen erforderlich sind, belegen diese Ergebnisse die breite Wissensbasis und die Fähigkeiten des Gemini-Modells.“

Um diese Ergebnisse zu erzielen, erstellten und kuratierten die Forscher drei Datensätze zum Testen personalisierter Erkenntnisse und Empfehlungen aus Wearable-Daten, Fachwissen und Vorhersagen der selbstberichteten Schlafqualität. In Zusammenarbeit mit Fachexperten wurden 857 Fallstudien erstellt, die reale Szenarien im Schlaf- und Fitnessbereich repräsentieren. Schlaf-Szenarien verwenden individuelle Indikatoren, um potenzielle Faktoren zu identifizieren und personalisierte Empfehlungen zur Verbesserung der Schlafqualität zu geben. Fitness-Aufgaben verwenden Informationen aus Training, Schlaf, Gesundheitsindikatoren und Nutzerfeedback, um Empfehlungen für die Intensität der körperlichen Aktivität an einem bestimmten Tag zu erstellen.

Beide Arten von Fallstudien enthielten Daten von Wearable-Sensoren, darunter Schlafdaten über 29 Tage, Fitnessdaten über 30 Tage sowie demografische Daten (Alter und Geschlecht) und Expertenanalysen.

Obwohl die Forscher anmerken, dass PH-LLM nur ein Anfang ist und wie jede neue Technologie einige Probleme aufweist, die gelöst werden müssen, z. B. sind die Antworten des Modells nicht immer konsistent, es gibt „signifikante Unterschiede“ in den fiktiven Fallstudien, und das LLM antwortet manchmal zurückhaltend oder vorsichtig. In den Fitness-Fallstudien reagierte das Modell sehr empfindlich auf Übertraining, und in einem Fall bemerkte ein menschlicher Experte, dass es die potenzielle Ursache von Verletzungen durch Schlafmangel nicht erkannte. Darüber hinaus decken die Fallstudien ein breites Spektrum an demografischen Daten und relativ aktiven Personen ab und repräsentieren daher möglicherweise nicht die gesamte Bevölkerung und können auch nicht alle Schlaf- und Fitnessprobleme lösen.