Eine aktuelle Studie des Google-Teams legt nahe, dass der Einsatz von großen Sprachmodellen zur Präferenzmarkierung anstelle von menschlichen Bewertern zu vergleichbaren Ergebnissen wie bei RLHF (Reinforcement Learning from Human Feedback) führt. Durch den Vergleich der Erfolgsquoten von RLAIF (Reinforcement Learning from AI Feedback) und RLHF stellten die Forscher fest, dass beide Methoden eine gleich hohe Akzeptanzrate von 50 % erzielten. Diese Studie belegt, dass RLAIF vergleichbare Verbesserungen erzielen kann, ohne auf menschliche Bewerter angewiesen zu sein.
RLHF braucht keine Menschen mehr! Google-Team beweist: KI-Annotationen erreichen menschliches Niveau

新智元
Dieser Artikel stammt aus dem AIbase-Tagesbericht
Willkommen im Bereich [KI-Tagesbericht]! Hier ist Ihr Leitfaden, um jeden Tag die Welt der künstlichen Intelligenz zu erkunden. Jeden Tag präsentieren wir Ihnen die Hotspots im KI-Bereich, konzentrieren uns auf Entwickler und helfen Ihnen, technologische Trends zu erkennen und innovative KI-Produktanwendungen zu verstehen.