El modelo Gemini de Google, con solo seis meses de existencia, ya ha demostrado capacidades notables en áreas como seguridad, codificación y depuración, aunque también presenta limitaciones significativas. Sin embargo, este gran modelo de lenguaje (LLM) supera a los humanos en recomendaciones de sueño y fitness.

Los investigadores de Google han presentado el modelo de lenguaje grande para la salud personal (PH-LLM), una versión de Gemini finamente ajustada que puede comprender y razonar datos de salud personales en serie temporal provenientes de dispositivos portátiles (como relojes inteligentes y monitores de frecuencia cardíaca). En sus experimentos, el modelo superó significativamente a expertos con años de experiencia en salud y fitness en la respuesta a preguntas y predicciones.

Modelo Gemini de Google

La tecnología portátil puede ayudar a las personas a monitorear su salud y, en el mejor de los casos, realizar cambios significativos. Estos dispositivos ofrecen una "fuente de datos rica y a largo plazo" que se puede obtener de forma "pasiva y continua" a partir de entradas como registros de ejercicio y dieta, diarios de estado de ánimo e incluso, a veces, actividad en redes sociales. Sin embargo, los datos que capturan sobre el sueño, la actividad física, la salud cardiometabólica y el estrés rara vez se incorporan en entornos clínicos "dispersos". Los investigadores especulan que esto probablemente se deba a la falta de contexto en el momento de la captura de datos y a la gran cantidad de cálculos necesarios para su almacenamiento y análisis. Además, la interpretación de estos datos puede ser bastante compleja.

Sin embargo, los investigadores de Google han logrado avances en el entrenamiento del modelo PH-LLM para proporcionar recomendaciones, responder preguntas de exámenes profesionales y predecir los resultados autoinformados de interrupciones y trastornos del sueño. El modelo recibió preguntas de opción múltiple, y los investigadores utilizaron el método de "cadena de pensamiento" (que imita el razonamiento humano) y el método de "disparo cero" (identificación de objetos y conceptos previamente desconocidos).

Impresionantemente, el PH-LLM obtuvo un 79% en el examen de sueño y un 88% en el examen de fitness, superando en ambos casos el promedio de un grupo de muestra de expertos humanos, incluidos cinco entrenadores deportivos profesionales (con una experiencia promedio de 13,8 años) y cinco expertos en medicina del sueño (con una experiencia promedio de 25 años). Los expertos humanos obtuvieron un promedio del 71% en fitness y del 76% en sueño.

Los investigadores señalan: "Aunque se necesita más desarrollo y evaluación en el campo de la salud personal, estos resultados demuestran la amplia base de conocimientos y capacidades del modelo Gemini".

Para lograr estos resultados, los investigadores primero crearon y organizaron tres conjuntos de datos para probar las ideas y recomendaciones personalizadas a partir de dispositivos portátiles, el conocimiento de áreas profesionales y la predicción de la calidad del sueño autoinformada. Colaboraron con expertos en el campo para crear 857 estudios de caso que representan escenarios reales en el ámbito del sueño y el fitness. Los escenarios de sueño utilizan indicadores individuales para identificar factores potenciales y proporcionar recomendaciones personalizadas para mejorar la calidad del sueño. Las tareas de fitness utilizan información de entrenamiento, sueño, indicadores de salud y comentarios del usuario para elaborar recomendaciones sobre la intensidad de la actividad física para un día determinado.

Ambos tipos de estudios de caso incluyeron datos de sensores portátiles, que incluían datos de sueño de hasta 29 días, datos de fitness de más de 30 días, así como información demográfica (edad y sexo) y análisis de expertos.

Aunque los investigadores señalan que el PH-LLM es solo el comienzo y, como cualquier tecnología emergente, tiene algunos problemas que resolver. Por ejemplo, las respuestas generadas por el modelo no siempre son consistentes, existe una "diferencia significativa" ficticia en los estudios de caso, y el LLM a veces es conservador o cauteloso en sus respuestas. En los estudios de caso de fitness, el modelo es muy sensible al sobreentrenamiento, y en un caso, los expertos humanos notaron que no pudo identificar la causa potencial de una lesión debido a la falta de sueño. Además, los estudios de caso abarcan ampliamente una variedad de datos demográficos e individuos relativamente activos, por lo que pueden no representar completamente a la población ni abordar problemas más amplios de sueño y fitness.