En el campo de la inteligencia artificial, las técnicas de post-entrenamiento se están convirtiendo en una herramienta crucial para mejorar el rendimiento de los modelos. Recientemente, el Instituto de Inteligencia Artificial Allen (AI2) ha publicado la serie de modelos Tülu3, un conjunto de modelos de lenguaje avanzados completamente de código abierto, con un rendimiento comparable a modelos propietarios como GPT-4o-mini. Tülu3 no solo incluye los datos del modelo, el código y la receta de entrenamiento, sino que también proporciona un marco de evaluación, con el objetivo de impulsar el desarrollo de técnicas de post-entrenamiento para modelos de código abierto.
Tradicionalmente, los modelos únicamente pre-entrenados a menudo no satisfacen las necesidades de las aplicaciones reales de manera efectiva, pudiendo generar información tóxica o peligrosa, y siendo difíciles de controlar mediante instrucciones humanas. Por lo tanto, las etapas de post-entrenamiento, como el ajuste fino de instrucciones y el aprendizaje con retroalimentación humana, son especialmente importantes. Sin embargo, optimizar el proceso de post-entrenamiento sigue siendo un desafío técnico, especialmente porque mejorar una capacidad del modelo puede afectar a otras.
Para superar este desafío, las grandes empresas han aumentado la complejidad de sus métodos de post-entrenamiento, probando entrenamientos de múltiples rondas y combinando datos artificiales y reales, pero la mayoría de estos métodos siguen siendo propietarios. En contraste, el lanzamiento de la serie Tülu3 ha reducido la brecha de rendimiento entre los modelos de código abierto y los modelos propietarios, aportando una nueva forma de pensar en el entrenamiento.
El proceso de entrenamiento de Tülu3 se divide en cuatro etapas: construcción de datos, ajuste fino supervisado, ajuste de preferencias y aprendizaje por refuerzo con recompensas verificables.
Primero, los investigadores se centraron en las habilidades centrales del modelo, utilizando una combinación de datos reales y sintéticos para construir los datos de entrenamiento.
Segundo, se realizó un ajuste fino supervisado para asegurar que el rendimiento del modelo en habilidades específicas no fuera inferior al de otros modelos avanzados.
Tercero, se empleó un método de optimización de preferencias directas para mejorar aún más el rendimiento general del modelo. Finalmente, se introdujo de forma innovadora el aprendizaje por refuerzo con recompensas verificables, para ayudar al modelo a completar mejor las tareas con resultados verificables.
El modelo Tülu3 se basa en Llama3.1 y ofrece un rendimiento excelente en áreas como razonamiento, matemáticas, programación y seguimiento de instrucciones. En comparación con otros modelos de código abierto y propietarios, la capacidad integral de Tülu3 destaca en varias pruebas de referencia, lo que representa un gran avance en las técnicas de post-entrenamiento de código abierto.
Enlace al artículo:https://allenai.org/papers/tulu-3-report.pdf
Demo:https://playground.allenai.org/
Puntos clave:
🌟 Tülu3 es un modelo de lenguaje de código abierto desarrollado por AI2, con un rendimiento comparable a modelos propietarios como GPT-4o-mini.
🔧 Las técnicas de post-entrenamiento son cruciales para mejorar el rendimiento del modelo en aplicaciones reales.
📊 El proceso de entrenamiento de Tülu3 es innovador, dividido en cuatro etapas: construcción de datos, ajuste fino supervisado, ajuste de preferencias y aprendizaje por refuerzo con recompensas verificables.