Recientemente, el equipo de investigación de Meta AI, en colaboración con investigadores de la Universidad de California, Berkeley, y la Universidad de Nueva York, presentó un método llamado Optimización de Preferencias de Pensamiento (Thought Preference Optimization, TPO), diseñado para mejorar la calidad de las respuestas de los grandes modelos de lenguaje (LLM) ajustados con instrucciones.
A diferencia de los modelos tradicionales que solo se centran en la respuesta final, el método TPO permite al modelo pensar internamente antes de generar una respuesta, lo que produce respuestas más precisas y coherentes.
Esta nueva técnica incorpora una versión mejorada del método de razonamiento de cadena de pensamiento (Chain-of-Thought, CoT). Durante el entrenamiento, el método anima al modelo a "pensar" antes de responder, ayudándole a construir un proceso de pensamiento interno más sistemático. Las indicaciones directas de CoT anteriores a veces reducían la precisión y el proceso de entrenamiento era más difícil debido a la falta de pasos de pensamiento claros. TPO supera estas limitaciones al permitir que el modelo optimice y simplifique su proceso de pensamiento, sin mostrar los pasos de pensamiento intermedios al usuario.
En el proceso de TPO, primero se solicita al gran modelo de lenguaje que genere múltiples procesos de pensamiento. Luego, antes de formar la respuesta final, se muestrean y evalúan estas salidas. A continuación, un modelo de evaluación puntúa las salidas, identificando las respuestas óptimas y las peores. Al utilizar estas salidas como pares de aceptación y rechazo para la optimización directa de preferencias (Direct Preference Optimization, DPO), este método de entrenamiento iterativo mejora la capacidad del modelo para generar respuestas más relevantes y de alta calidad, mejorando así el rendimiento general.
En este método, las indicaciones de entrenamiento se ajustan para animar al modelo a pensar internamente antes de responder. La respuesta final evaluada es puntuada por un modelo de evaluación basado en LLM, lo que permite al modelo mejorar la calidad basándose únicamente en la eficacia de la respuesta, sin tener en cuenta los pasos de pensamiento implícitos. Además, TPO utiliza la optimización directa de preferencias para crear pares de respuestas aceptadas y rechazadas que incluyen pensamiento implícito, refinando aún más el proceso interno del modelo a través de múltiples ciclos de entrenamiento.
Los resultados de la investigación muestran que el método TPO ofrece un rendimiento superior en varias pruebas de referencia, superando a varios modelos existentes. Este método no solo es adecuado para tareas lógicas y matemáticas, sino que también muestra potencial en áreas creativas como el marketing y las tareas de seguimiento de instrucciones en el ámbito de la salud.
Artículo:https://arxiv.org/pdf/2410.10630
Puntos clave:
🧠 La tecnología TPO mejora la capacidad de los grandes modelos de lenguaje para pensar antes de generar respuestas, asegurando respuestas más precisas.
📈 Gracias a la mejora del razonamiento de cadena de pensamiento, el modelo puede optimizar y simplificar su proceso de pensamiento interno, mejorando la calidad de las respuestas.
💡 TPO es aplicable a diversas áreas, no solo a tareas lógicas y matemáticas, sino también a áreas creativas y de salud.