C3PO
Técnica de alineación de modelos LLM basada en la retroalimentación del usuario
Producto ComúnProductividadModelo LLMRetroalimentación del usuario
C3PO es una técnica de alineación de modelos LLM basada en la retroalimentación del usuario. Permite ajustar un LLM a partir de una sola oración de retroalimentación, evitando la sobregeneralización. Esta técnica proporciona una implementación de referencia, líneas de base relevantes y componentes necesarios para facilitar la reproducción de la técnica presentada en trabajos de investigación.