C3PO
Technique d'alignement de modèle LLM basée sur les retours utilisateurs
Produit OrdinaireProductivitéModèle LLMRetour utilisateur
C3PO est une technique d'alignement de modèle LLM basée sur les retours utilisateurs. Elle permet d'ajuster un LLM à partir d'une seule phrase de retour, évitant ainsi la surgénéralisation. Cette technique fournit une implémentation de référence, des lignes de base pertinentes et les composants nécessaires pour faciliter la mise en œuvre des techniques présentées dans les articles de recherche.