Uma nova pesquisa sugere que o sistema de inteligência artificial o1-preview da OpenAI pode superar médicos humanos no diagnóstico de casos médicos complexos. Uma equipe de pesquisa da Harvard Medical School e da Universidade de Stanford realizou testes abrangentes de diagnóstico médico no o1-preview, mostrando melhorias significativas em relação às versões anteriores.

De acordo com os resultados, o o1-preview atingiu uma taxa de diagnóstico correto de 78,3% em todos os casos testados. Em uma comparação direta de 70 casos específicos, a taxa de diagnóstico preciso do sistema atingiu 88,6%, superando significativamente seu antecessor, o GPT-4, que atingiu 72,9%. O desempenho do o1-preview também foi notável no raciocínio médico. Usando a escala R-IDEA, um padrão de avaliação da qualidade do raciocínio médico, o sistema de IA obteve pontuação máxima em 78 de 80 casos. Em comparação, médicos experientes obtiveram pontuação máxima em apenas 28 casos, enquanto médicos residentes obtiveram pontuação máxima em apenas 16 casos.

Os pesquisadores também reconhecem que o o1-preview pode ter incluído alguns casos de teste em seus dados de treinamento. No entanto, quando o sistema foi testado em novos casos, o desempenho caiu apenas ligeiramente. Um dos autores do estudo, o Dr. Adam Rodman, destaca que, embora seja um estudo de referência, os resultados têm implicações importantes para a prática médica.

O o1-preview se destacou particularmente no tratamento de casos complexos de gerenciamento projetados especificamente por 25 especialistas. "Os humanos ficaram sobrecarregados com esses quebra-cabeças, mas o desempenho do o1 foi impressionante", explicou Rodman. Nestes casos complexos, o o1-preview obteve uma pontuação de 86%, enquanto os médicos usando o GPT-4 obtiveram apenas 41% e as ferramentas tradicionais apenas 34%.

No entanto, o o1-preview não é perfeito. Seu desempenho na avaliação de probabilidades não melhorou significativamente; por exemplo, ao avaliar a probabilidade de pneumonia, o o1-preview forneceu uma estimativa de 70%, muito acima da faixa científica de 25% a 42%. Os pesquisadores descobriram que o o1-preview se destaca em tarefas que exigem pensamento crítico, mas luta em desafios mais abstratos, como estimar probabilidades.

Além disso, o o1-preview geralmente fornece respostas detalhadas, o que pode ter aumentado sua pontuação. No entanto, o estudo se concentrou apenas no o1-preview trabalhando sozinho e não avaliou sua eficácia em colaboração com médicos. Alguns críticos apontam que os testes de diagnóstico sugeridos pelo o1-preview costumam ser caros e impraticáveis.

image.png

Embora a OpenAI tenha lançado novas versões do o1 e o3, mostrando excelente desempenho em tarefas de raciocínio complexo, esses modelos mais poderosos ainda não resolveram as preocupações dos críticos sobre aplicabilidade prática e custo. Rodman defende que os pesquisadores precisam de melhores métodos para avaliar sistemas de IA médica para capturar a complexidade das decisões médicas reais. Ele enfatiza que esta pesquisa não significa que os médicos podem ser substituídos; o atendimento médico real ainda requer intervenção humana.

Artigo: https://arxiv.org/abs/2412.10849

Destaques:

🌟 O o1-preview superou os médicos na taxa de diagnóstico, atingindo uma precisão de 88,6%.

🧠 Em termos de raciocínio médico, o o1-preview obteve pontuação máxima em 78 de 80 casos, superando significativamente o desempenho dos médicos.

💰 Apesar do excelente desempenho, o alto custo e as sugestões de testes impraticáveis ​​do o1-preview em aplicações práticas ainda precisam ser resolvidos.