Un equipo de la Universidad de Pekín y la Universidad de Ciencia y Tecnología de Hong Kong ha logrado un gran avance: han desarrollado un método de entrenamiento que permite a un modelo médico de 8B parámetros alcanzar el rendimiento de GPT-4. Esto no es una simple mejora; también introducen un nuevo concepto, la "brecha de estabilidad", para explicar ciertos fenómenos observados durante el preentrenamiento continuo de modelos de lenguaje extenso.

IA médica, médico, inteligencia artificial

Nota de la imagen: Imagen generada por IA, proveedor de servicios de licencias de imágenes Midjourney

En primer lugar, observaron que durante el preentrenamiento continuo, el rendimiento del modelo en el dominio objetivo disminuye antes de aumentar, como una montaña rusa. Para solucionar esto, propusieron tres estrategias. La primera consiste en realizar múltiples rondas de preentrenamiento en subconjuntos de datos de tamaño adecuado, lo que permite una recuperación del rendimiento más rápida que con una sola ronda de preentrenamiento en un conjunto de datos grande. La segunda consiste en seleccionar los subcorpus de mayor calidad para el preentrenamiento multironda. Por último, la mezcla de datos para aproximarse a la distribución de los datos de preentrenamiento permite una mayor estabilidad del modelo.

Estas estrategias han demostrado ser significativamente efectivas en el preentrenamiento continuo y el ajuste fino por instrucciones en el ámbito médico, mejorando el rendimiento y reduciendo la carga computacional. Además, su modelo Llama-3-Physician-8B de código abierto ya está disponible en HuggingFace.

La importancia de esta investigación va más allá. Descubrieron que, mediante estas estrategias, el modelo OpenLLaMa solo necesita cuatro rondas de entrenamiento en un conjunto de datos de alta calidad de 5 mil millones de parámetros para superar significativamente todos los modelos de referencia en tareas médicas. Esto no solo mejora el rendimiento, sino que también reduce considerablemente el consumo de recursos computacionales.

Aún más impresionante es el rendimiento de su modelo Llama-3-Physician-8B-insturct en tareas de preguntas y respuestas médicas, que supera no solo a otros modelos de código abierto del mismo tamaño, sino incluso al modelo GPT-3.5 de código cerrado, acercándose al nivel de GPT-4. Esto supone una verdadera revolución en el ámbito médico.

Este estudio no solo proporciona un nuevo método de entrenamiento, sino que también revela el enorme potencial de los modelos de lenguaje extenso en el ámbito médico. Mediante el preentrenamiento continuo y el ajuste fino por instrucciones, podemos lograr un mayor rendimiento en dominios específicos, al tiempo que reducimos los costes computacionales. Esto supone una gran ventaja para el sector sanitario.

Esta investigación también nos recuerda que el entrenamiento de modelos de lenguaje extenso no es un proceso único, sino que requiere una optimización y ajuste continuos. La introducción del concepto de "brecha de estabilidad" nos permite comprender y resolver mejor los problemas del entrenamiento de modelos, permitiendo que estos alcancen su máximo potencial en dominios específicos. Esto no solo representa un avance tecnológico, sino también una profunda comprensión del sector sanitario.

Enlace al artículo: https://arxiv.org/abs/2406.14833

Enlace al código abierto: https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct