C3PO

Técnica de alineación de modelos LLM basada en la retroalimentación del usuario

Producto ComúnProductividadModelo LLMRetroalimentación del usuario
C3PO es una técnica de alineación de modelos LLM basada en la retroalimentación del usuario. Permite ajustar un LLM a partir de una sola oración de retroalimentación, evitando la sobregeneralización. Esta técnica proporciona una implementación de referencia, líneas de base relevantes y componentes necesarios para facilitar la reproducción de la técnica presentada en trabajos de investigación.
Abrir sitio web

C3PO Alternativas