O modelo Gemini do Google, com apenas seis meses de existência, já demonstra capacidades notáveis em segurança, codificação e depuração, embora também apresente limitações significativas. No entanto, este grande modelo de linguagem (LLM) supera os humanos em recomendações de sono e condicionamento físico.
Pesquisadores do Google lançaram o modelo de linguagem de grande porte para saúde pessoal (PH-LLM), uma versão refinada do Gemini, capaz de entender e raciocinar dados de saúde pessoal em séries temporais provenientes de dispositivos vestíveis (como smartwatches e monitores de frequência cardíaca). Em seus experimentos, o modelo apresentou respostas e previsões significativamente superiores às de especialistas com anos de experiência em saúde e condicionamento físico.
A tecnologia vestível pode ajudar as pessoas a monitorar sua saúde e, idealmente, fazer mudanças significativas. Esses dispositivos fornecem uma "fonte de dados rica e de longo prazo", que pode ser "passivamente e continuamente obtida" a partir de entradas como registros de exercícios e dieta, diários de humor e, às vezes, até mesmo atividades de mídia social. No entanto, os dados que eles capturam sobre sono, atividade física, saúde cardiometabólica e estresse raramente são incorporados em ambientes clínicos "fragmentados". Os pesquisadores especulam que isso provavelmente se deve à falta de contexto no momento da captura dos dados e à grande quantidade de computação necessária para armazenamento e análise. Além disso, a interpretação desses dados pode ser bastante desafiadora.
No entanto, os pesquisadores do Google fizeram avanços no treinamento do modelo PH-LLM para fornecer recomendações, responder a perguntas de exames profissionais e prever resultados autodeclarados de distúrbios e problemas do sono. O modelo recebeu perguntas de múltipla escolha, e os pesquisadores também usaram o método de "cadeia de pensamento" (que imita o raciocínio humano) e o método "zero-shot" (identificação de objetos e conceitos nunca antes encontrados).
Impressionantemente, o PH-LLM obteve 79% de acerto no exame de sono e 88% no exame de condicionamento físico, ambos superando a média de um grupo de amostra de especialistas humanos, incluindo cinco treinadores de condicionamento físico profissionais (média de 13,8 anos de experiência) e cinco especialistas em medicina do sono (média de 25 anos de experiência). Os especialistas humanos obtiveram uma média de 71% e 76% em condicionamento físico e sono, respectivamente.
Os pesquisadores observaram: "Embora ainda sejam necessários mais desenvolvimento e avaliação na área da saúde pessoal, esses resultados demonstram a ampla base de conhecimento e as capacidades do modelo Gemini."
Para alcançar esses resultados, os pesquisadores primeiro criaram e organizaram três conjuntos de dados para testar insights e recomendações personalizadas de dispositivos vestíveis, conhecimento de domínio especializado e previsões de qualidade do sono autodeclarada. Eles colaboraram com especialistas da área para criar 857 estudos de caso, representando cenários reais nas áreas de sono e condicionamento físico. Os cenários de sono usaram indicadores individuais para identificar fatores potenciais e fornecer recomendações personalizadas para melhorar a qualidade do sono. As tarefas de condicionamento físico usaram informações de treinamento, sono, indicadores de saúde e feedback do usuário para elaborar recomendações para a intensidade da atividade física em um determinado dia.
Ambos os tipos de estudos de caso incluíram dados de sensores vestíveis, incluindo dados de sono de até 29 dias, dados de condicionamento físico de mais de 30 dias, além de informações demográficas (idade e sexo) e análise de especialistas.
Embora os pesquisadores tenham observado que o PH-LLM é apenas um começo e, como qualquer tecnologia emergente, apresenta alguns problemas a serem resolvidos. Por exemplo, as respostas geradas pelo modelo nem sempre são consistentes, existindo "diferenças significativas" fictícias nos estudos de caso, e o LLM às vezes é conservador ou cauteloso em suas respostas. Nos estudos de caso de condicionamento físico, o modelo mostrou-se muito sensível ao treinamento excessivo, e em um caso, especialistas humanos observaram que ele não conseguiu identificar a causa potencial de lesões devido à falta de sono. Além disso, os estudos de caso abrangem amplamente uma variedade de dados demográficos e indivíduos relativamente ativos, portanto, podem não representar totalmente a população e não conseguem abordar problemas mais amplos de sono e condicionamento físico.