わずか6ヶ月前に誕生したGoogleのGeminiモデルは、セキュリティ、コーディング、デバッグなどの分野で目覚ましい能力を示していますが、もちろん深刻な限界も示しています。しかし、この大規模言語モデル(LLM)は、睡眠とフィットネスのアドバイスにおいては人間を凌駕しています。
Googleの研究者たちは、ウェアラブルデバイス(スマートウォッチや心拍数モニターなど)からの時系列の個人健康データを理解し、推論できるよう微調整されたGeminiのバージョンである、パーソナルヘルス大規模言語モデル(PH-LLM)を発表しました。彼らの実験では、このモデルは、健康とフィットネスの分野で長年の経験を持つ専門家よりも、質問への回答と予測において明らかに優れていました。
ウェアラブルテクノロジーは、人々が自分の健康状態を監視し、理想的には有意義な変化を促すのに役立ちます。これらのデバイスは、「豊富で長期的なデータソース」を提供し、運動と食事の記録、気分の記録、時にはソーシャルメディアの活動などの入力から「受動的かつ継続的に」取得できます。しかし、睡眠、身体活動、心臓代謝の健康、ストレスに関するこれらのデータは、「断片的な」臨床環境にほとんど取り入れられていません。研究者たちは、これはおそらくデータが取得される際にコンテキストが不足しており、保存と分析に膨大な計算が必要であるためだと推測しています。さらに、これらのデータの解釈は非常に難しい可能性もあります。
しかし、Googleの研究者たちは、PH-LLMモデルを訓練してアドバイスを提供し、専門家の試験問題に答え、自己申告の睡眠障害と睡眠障害の結果を予測することに成功しました。このモデルには多肢選択問題が与えられ、研究者たちは「思考連鎖」(人間の推論を模倣)と「ゼロショット」手法(以前に遭遇したことのないオブジェクトや概念を識別)も使用しました。
印象的なことに、PH-LLMは睡眠試験で79%、フィットネステストで88%という成績を収め、いずれも5人のプロの運動トレーナー(平均経験年数13.8年)と5人の睡眠医学専門家(平均経験年数25年)を含むサンプルの人間専門家集団の平均成績を上回りました。人間の専門家のフィットネスと睡眠に関する平均成績は、それぞれ71%と76%でした。
研究者たちは、「個人健康分野ではさらなる開発と評価が必要ですが、これらの結果は、Geminiモデルの幅広い知識ベースと能力を実証しています」と述べています。
これらの結果を得るために、研究者たちはまず、ウェアラブルデバイスからのパーソナライズされた洞察とアドバイス、専門分野の知識、自己申告の睡眠の質の予測をテストするための3つのデータセットを作成し、整理しました。彼らは専門家と協力して、睡眠とフィットネス分野の現実的なシナリオを表す857件のケーススタディを作成しました。睡眠シナリオでは、個々の指標を使用して潜在的な要因を特定し、睡眠の質を向上させるためのパーソナライズされたアドバイスを提供します。フィットネスタスクでは、トレーニング、睡眠、健康指標、ユーザーからのフィードバックの情報を使用して、その日の身体活動の強度に関するアドバイスを作成します。
2種類のケーススタディにはどちらもウェアラブルセンサーデータが含まれており、睡眠データは最長29日間、フィットネスデータは30日間以上、人口統計情報(年齢と性別)、専門家の分析が含まれています。
研究者たちはPH-LLMはまだ始まりに過ぎず、他の新興技術と同様に解決すべき問題がいくつかあることに注意しています。例えば、モデルが生成する回答は常に一貫しているわけではなく、ケーススタディでは「顕著な差異」のある架空の設定が存在し、LLMは回答において控えめまたは慎重になることがあります。フィットネスのケーススタディでは、このモデルは過剰訓練に非常に敏感であり、あるケースでは、人間の専門家は、睡眠不足が怪我につながる可能性のある原因を特定できなかったことに気づきました。さらに、ケーススタディはさまざまな人口統計データと比較的活動的な個人を広く網羅しているため、必ずしも人口全体を代表するものではなく、より広範な睡眠とフィットネスの問題に対処できるわけではありません。