Un nuevo estudio sugiere que el sistema de inteligencia artificial o1-preview de OpenAI podría superar a los médicos humanos en el diagnóstico de casos médicos complejos. Un equipo de investigación de la Facultad de Medicina de Harvard y la Universidad de Stanford realizó una prueba exhaustiva de diagnóstico médico a o1-preview, mostrando una mejora significativa con respecto a versiones anteriores.
Según los resultados, o1-preview logró una tasa de diagnóstico correcto del 78.3% en todos los casos probados. En una comparación directa de 70 casos específicos, la precisión del sistema alcanzó el 88.6%, superando significativamente el 72.9% de su predecesor, GPT-4. El rendimiento de o1-preview en el razonamiento médico también fue notable. Utilizando la escala R-IDEA para evaluar la calidad del razonamiento médico, el sistema de IA obtuvo una puntuación perfecta en 78 de 80 casos. En comparación, los médicos experimentados obtuvieron una puntuación perfecta en solo 28 casos, mientras que los médicos residentes solo lo lograron en 16.
Los investigadores reconocen que o1-preview podría haber incluido algunos casos de prueba en sus datos de entrenamiento. Sin embargo, cuando se probó el sistema con casos nuevos, el rendimiento solo disminuyó ligeramente. El Dr. Adam Rodman, uno de los autores del estudio, destaca que, aunque se trata de un estudio de referencia, los resultados tienen implicaciones importantes para la práctica médica.
o1-preview se destacó especialmente en el manejo de casos complejos diseñados específicamente por 25 expertos. "Los humanos se quedaron atascados en estos problemas difíciles, pero el rendimiento de o1 fue asombroso", explicó Rodman. En estos casos complejos, o1-preview obtuvo una puntuación del 86%, mientras que los médicos con GPT-4 solo obtuvieron un 41%, y las herramientas tradicionales un 34%.
Sin embargo, o1-preview no está exento de defectos. Su rendimiento en la evaluación de probabilidades no mejoró significativamente; por ejemplo, al evaluar la probabilidad de neumonía, o1-preview dio una estimación del 70%, muy por encima del rango científico del 25%-42%. Los investigadores descubrieron que o1-preview sobresalió en tareas que requieren pensamiento crítico, pero tuvo dificultades en desafíos más abstractos, como la estimación de probabilidades.
Además, o1-preview suele proporcionar respuestas detalladas, lo que podría haber inflado su puntuación. El estudio solo se centró en o1-preview trabajando de forma independiente, sin evaluar su eficacia en colaboración con médicos. Algunos críticos señalan que las pruebas de diagnóstico sugeridas por o1-preview suelen ser costosas e imprácticas.
Aunque OpenAI ha lanzado nuevas versiones de o1 y o3, con un excelente rendimiento en tareas de razonamiento complejo, estos modelos más potentes aún no abordan los problemas de aplicación práctica y costes planteados por los críticos. Rodman aboga por mejores métodos para evaluar los sistemas de IA médica para capturar la complejidad de la toma de decisiones médicas reales. Destaca que este estudio no implica que los médicos puedan ser reemplazados, y que la atención médica real aún requiere la participación humana.
Artículo: https://arxiv.org/abs/2412.10849
Puntos clave:
🌟 o1-preview supera a los médicos en la tasa de diagnóstico, alcanzando una precisión del 88.6%.
🧠 En el razonamiento médico, o1-preview obtuvo una puntuación perfecta en 78 de 80 casos, superando con creces el rendimiento de los médicos.
💰 A pesar de su excelente rendimiento, aún es necesario abordar los altos costes y las sugerencias de pruebas poco prácticas de o1-preview en aplicaciones reales.