Un estudio de revisión por pares publicado recientemente en la revista Cureus muestra que el modelo de lenguaje GPT-4 de OpenAI aprobó con éxito el examen nacional de fisioterapia de Japón sin ningún entrenamiento adicional.

Los investigadores presentaron a GPT-4 1.000 preguntas que abarcaban aspectos de memoria, comprensión, aplicación, análisis y evaluación. Los resultados mostraron que GPT-4 respondió correctamente el 73,4% de las preguntas en general, aprobando todas las cinco partes del examen. Sin embargo, el estudio también reveló las limitaciones de la IA en ciertas áreas.

QQ20240902-090345.png

GPT-4 tuvo un rendimiento excelente en preguntas generales, con una precisión del 80,1%, pero solo del 46,6% en preguntas prácticas. Del mismo modo, su rendimiento en preguntas de texto plano (80,5% de precisión) fue mucho mejor que en preguntas con imágenes y tablas (35,4% de precisión). Este hallazgo es coherente con estudios previos sobre las limitaciones de la comprensión visual de GPT-4.

Cabe destacar que la dificultad de las preguntas y la longitud del texto no afectaron significativamente el rendimiento de GPT-4. Aunque el modelo se entrenó principalmente con datos en inglés, también mostró un buen rendimiento al procesar entradas en japonés.

QQ20240902-090359.png

Los investigadores señalan que, aunque este estudio muestra el potencial de GPT-4 en la rehabilitación clínica y la educación médica, es necesario proceder con cautela. Destacan que GPT-4 no puede responder correctamente a todas las preguntas y que en el futuro será necesario evaluar nuevas versiones y la capacidad del modelo en pruebas escritas y de razonamiento.

QQ20240902-090419.png

Además, los investigadores sugieren que modelos multimodales como GPT-4v podrían mejorar aún más la comprensión visual. Actualmente, se están desarrollando activamente modelos de IA médica especializados como Med-PaLM2 y Med-Gemini de Google, y un modelo médico basado en Llama3 de Meta, con el objetivo de superar a los modelos generales en tareas médicas.

Sin embargo, los expertos opinan que la aplicación generalizada de los modelos de IA médica en la práctica aún tardará mucho tiempo. El margen de error de los modelos actuales sigue siendo demasiado grande en el entorno médico, y se necesitan avances significativos en la capacidad de razonamiento para poder integrar estos modelos de forma segura en la práctica médica diaria.