Investigadores de Meta FAIR, la Universidad de California, Berkeley y la Universidad de Nueva York han desarrollado una nueva técnica llamada Optimización de Preferencias de Pensamiento (TPO, por sus siglas en inglés), diseñada para mejorar la calidad de las respuestas de los modelos lingüísticos grandes (LLM) a las indicaciones. A diferencia de los modelos tradicionales que se centran únicamente en la respuesta final, TPO permite que el modelo "piense" y reflexione internamente antes de dar la respuesta final, generando así respuestas más precisas y coherentes.
El núcleo de la tecnología TPO es un método de razonamiento de cadena de pensamiento (CoT) mejorado. Este método fomenta durante el entrenamiento que el modelo "piense antes de responder", ayudándole a construir un proceso de pensamiento interno más organizado antes de proporcionar la respuesta final. Las indicaciones CoT tradicionales a veces pueden reducir la precisión y son difíciles de entrenar debido a la falta de pasos de pensamiento explícitos. TPO supera estos desafíos al optimizar y simplificar el proceso de pensamiento del modelo sin exponer los pasos intermedios al usuario.
Durante el entrenamiento de TPO, se solicita al LLM que genere varias líneas de pensamiento, que luego se refinan en una respuesta final. Estos resultados se evalúan con un modelo "juez" para seleccionar las mejores y peores respuestas. Estos resultados se utilizan como pares de "aceptación" y "rechazo" para la optimización directa de preferencias (DPO), mejorando continuamente la calidad de la respuesta del modelo.
Ajustando las indicaciones de entrenamiento, TPO anima al modelo a pensar internamente antes de responder. Este proceso guía al modelo para optimizar su respuesta haciéndola más clara y relevante. Finalmente, un modelo de evaluación basado en LLM evalúa únicamente la respuesta final, independientemente de los pasos de pensamiento ocultos, ayudando a mejorar la calidad de la respuesta. TPO también utiliza la optimización directa de preferencias para crear pares de respuestas aceptadas y rechazadas con pensamiento oculto, refinando aún más el proceso interno del modelo a través de múltiples rondas de entrenamiento.
En las pruebas de referencia de AlpacaEval y Arena-Hard, el método TPO superó a las líneas de base de respuesta tradicionales y al modelo Llama-3-8B-Instruct con "indicaciones de pensamiento". El entrenamiento iterativo de este método optimizó la capacidad de generación de pensamiento, superando finalmente a varios modelos de línea de base. Cabe destacar que TPO no solo es aplicable a tareas lógicas y matemáticas, sino que también destaca en tareas de seguimiento de instrucciones en áreas creativas como marketing y salud.
Karan Verma, experto en IA y robótica, compartió en la plataforma X su entusiasmo por el concepto de "LLM reflexivo", expresando su expectativa sobre el potencial de esta innovación en aplicaciones médicas para mejorar los resultados de los pacientes.
Este proceso de pensamiento interno estructurado permite que el modelo maneje indicaciones complejas de manera más eficiente, ampliando su aplicación a áreas que requieren razonamiento multinivel y comprensión detallada, sin necesidad de datos de pensamiento específicos proporcionados por humanos. Esta investigación demuestra que TPO tiene el potencial de hacer que los modelos lingüísticos grandes sean más flexibles y eficientes en una variedad de contextos, adecuados para áreas donde se requiere un alto nivel de flexibilidad y profundidad en la generación de respuestas.