En los últimos años, el entrenamiento de grandes modelos de lenguaje (LLM) se ha vuelto cada vez más costoso y complejo, quedando al alcance únicamente de unas pocas grandes empresas tecnológicas con los recursos computacionales necesarios. Sin embargo, Google ha presentado recientemente un nuevo método llamado SALT (Small Model Assisted Large Model Training, entrenamiento de grandes modelos de lenguaje asistido por modelos pequeños), una innovación que podría revolucionar el panorama del entrenamiento de IA.
Nota de la fuente: La imagen fue generada por IA, con licencia de Midjourney.
Según un reciente artículo de investigación de Google Research y DeepMind, "Un poco de ayuda puede llegar lejos: Entrenamiento eficiente de LLM mediante la utilización de modelos de lenguaje pequeños", SALT introduce un nuevo proceso de entrenamiento en dos fases. Este método no solo es eficiente, sino también más práctico, cambiando nuestra forma de entrenar modelos.
La primera fase de SALT es la destilación del conocimiento. En esta fase, un modelo de lenguaje pequeño (SLM) actúa como profesor, transmitiendo su conocimiento a un modelo más grande. El modelo pequeño comparte su conocimiento aprendido a través de "etiquetas suaves", ayudando al modelo grande a dominar los conceptos básicos en las etapas iniciales del aprendizaje. Esta fase es especialmente útil para tareas "simples" donde el modelo pequeño tiene una alta confianza en su predicción dentro de un área de aprendizaje específica.
La segunda fase es el aprendizaje autosupervisado. En esta etapa, el modelo grande comienza a aprender de forma independiente, centrándose en dominar patrones más complejos y tareas desafiantes. Esta transición requiere estrategias cuidadosamente diseñadas, incluyendo la atenuación lineal y la atenuación lineal proporcional, lo que asegura una transición suave para el modelo grande, reduciendo gradualmente su dependencia del modelo pequeño.
Los investigadores de Google descubrieron en sus experimentos que, utilizando un modelo pequeño de 1.500 millones de parámetros para entrenar un modelo grande de 2.800 millones de parámetros, el tiempo de entrenamiento en el conjunto de datos "Stack" se redujo en un 28%. Después del ajuste fino, la precisión del modelo grande en problemas matemáticos aumentó del 31,84% al 34,87%, y la precisión en la comprensión lectora aumentó del 63,7% al 67%. Este nuevo método no solo mejora la eficiencia del entrenamiento, sino que también logra un progreso significativo en el rendimiento.
La aparición de SALT podría reducir las barreras de entrada para el desarrollo de IA, permitiendo que muchas instituciones e empresas de investigación, previamente limitadas por los recursos, participen en el desarrollo de modelos de IA. Las oportunidades de investigación y desarrollo serán más accesibles, lo que podría generar soluciones de IA más únicas y especializadas, impulsando la innovación y las aplicaciones en campos relacionados.
Puntos clave:
🌟 El método SALT puede reducir el tiempo de entrenamiento de los modelos grandes en un 28%, reduciendo significativamente los costos computacionales.
📈 La destilación del conocimiento utilizando modelos pequeños puede mejorar significativamente el rendimiento de los modelos grandes en tareas complejas.
🔍 La innovación de SALT podría reducir las barreras de entrada para el desarrollo de IA, permitiendo que más instituciones pequeñas participen en la investigación de IA.