A aplicação da inteligência artificial na área médica recebeu mais um grande avanço! Uma pesquisa conjunta de várias instituições de ponta, incluindo as universidades de Harvard e Stanford, mostrou que o modelo o1-preview da OpenAI demonstrou capacidades surpreendentes em várias tarefas de raciocínio médico, superando até mesmo médicos humanos. Este estudo não apenas avaliou o desempenho do modelo em testes de múltipla escolha médica, mas também focou em sua capacidade de diagnóstico e gerenciamento em cenários clínicos simulados, com resultados impressionantes.
Os pesquisadores realizaram uma avaliação completa do modelo o1-preview por meio de cinco experimentos, incluindo a geração de diagnósticos diferenciais, a demonstração do processo de raciocínio diagnóstico, o diagnóstico diferencial de triagem, o raciocínio probabilístico e o raciocínio de gerenciamento. Esses experimentos foram avaliados por especialistas médicos usando métodos psicométricos validados, com o objetivo de comparar o desempenho do o1-preview com grupos de controle humanos anteriores e benchmarks de modelos de linguagem de grande porte anteriores. Os resultados mostraram um progresso significativo do o1-preview na geração de diagnósticos diferenciais e na qualidade do raciocínio de diagnóstico e gerenciamento.
Ao avaliar a capacidade do o1-preview de gerar diagnósticos diferenciais, os pesquisadores utilizaram casos de discussão clínico-patológica (CPC) do New England Journal of Medicine (NEJM). Os resultados mostraram que o modelo incluiu o diagnóstico correto em 78,3% dos casos, sendo o primeiro diagnóstico correto em 52% dos casos. Ainda mais surpreendente, o o1-preview forneceu um diagnóstico preciso ou muito próximo em 88,6% dos casos, enquanto o modelo GPT-4 anterior alcançou essa porcentagem em 72,9% dos mesmos casos. Além disso, o o1-preview teve um desempenho excelente na seleção do próximo teste de diagnóstico, escolhendo o teste correto em 87,5% dos casos, e em 11% dos casos a escolha foi considerada útil.
Para avaliar ainda mais a capacidade de raciocínio clínico do o1-preview, os pesquisadores usaram 20 casos clínicos do curso NEJM Healer. Os resultados mostraram que o o1-preview se saiu significativamente melhor do que o GPT-4, médicos seniores e residentes, obtendo uma pontuação R-IDEA perfeita em 78/80 casos. A pontuação R-IDEA é uma escala de 10 pontos usada para avaliar a qualidade dos registros de raciocínio clínico. Além disso, os pesquisadores avaliaram a capacidade de raciocínio de gerenciamento e diagnóstico do o1-preview usando os casos de gerenciamento "Grey Matters" e os casos de diagnóstico "Landmark". No caso "Grey Matters", o o1-preview obteve uma pontuação significativamente maior do que o GPT-4, médicos que usaram o GPT-4 e médicos que usaram recursos tradicionais. No caso "Landmark", o o1-preview teve um desempenho comparável ao GPT-4, mas superior aos médicos que usaram o GPT-4 ou recursos tradicionais.
No entanto, a pesquisa também descobriu que o desempenho do o1-preview no raciocínio probabilístico foi semelhante ao de modelos anteriores, sem melhorias significativas. Em alguns casos, o modelo foi menos preciso do que os humanos na previsão da probabilidade de doenças. Os pesquisadores também apontaram que uma limitação do o1-preview é a tendência à verbosidade, o que pode ter aumentado sua pontuação em alguns experimentos. Além disso, o estudo focou principalmente no desempenho do modelo, sem abordar a interação humano-máquina, portanto, pesquisas futuras devem investigar como o o1-preview pode melhorar a interação humano-máquina para desenvolver ferramentas de suporte à decisão clínica mais eficazes.
Apesar disso, este estudo demonstra que o o1-preview se destaca em tarefas que exigem raciocínio crítico complexo, como diagnóstico e gerenciamento. Os pesquisadores enfatizam que os benchmarks de raciocínio diagnóstico na medicina estão rapidamente se saturando, portanto, é necessário desenvolver métodos de avaliação mais desafiadores e realistas. Eles apelam para testes dessas tecnologias em ambientes clínicos reais e para a preparação para a inovação na colaboração entre clínicos e inteligência artificial. Além disso, é necessário estabelecer uma estrutura de supervisão sólida para monitorar a implementação generalizada de sistemas de suporte à decisão clínica de inteligência artificial.
Endereço do artigo: https://www.arxiv.org/pdf/2412.10849