OpenAI-Forscher haben am Donnerstag die Einführung von CriticGPT angekündigt, einem innovativen KI-Modell, das darauf ausgelegt ist, Fehler in von ChatGPT generiertem Code zu identifizieren und zu korrigieren. Dieser Durchbruch stellt einen wichtigen Schritt in der Selbstverbesserung und Qualitätskontrolle von KI-Technologien dar.

QQ截图20240628091656.png

Hauptmerkmale von CriticGPT

1. Basierend auf der GPT-4-Serie: CriticGPT basiert auf dem leistungsstarken GPT-4-Sprachmodell.

2. Fokus auf Code-Review: Es dient hauptsächlich der Analyse von von ChatGPT generiertem Programmcode und der Aufdeckung potenzieller Fehler.

3. Mensch-Maschine-Zusammenarbeit: Als KI-Assistent für menschliche Trainer verbessert es die Effizienz und Genauigkeit der Code-Überprüfung.

4. Verstärkendes Lernen: Durch Lernen aus menschlichem Feedback (RLHF) wird der „Alignment“-Grad des KI-Systems verbessert.

QQ截图20240628091930.png

Entwicklungsprozess und Ergebnisse

Die Forscher verwendeten innovative Trainingsmethoden für die Entwicklung von CriticGPT:

1. Datenvorbereitung: Training mit Codebeispielen, in die absichtlich Fehler eingefügt wurden.

2. Menschliche Beteiligung: Menschliche Trainer wurden gebeten, von ChatGPT geschriebenen Code zu korrigieren, Fehler einzuführen und Feedback zu geben.

3. Anwendung neuer Technologien: Einführung der Technik „Forced Sampling Beam Search“ (FSBS), um das Gleichgewicht zwischen detaillierten Kommentaren und der Erzeugung fiktiver Probleme zu gewährleisten.

QQ截图20240628091944.png

Experimentelle Ergebnisse zeigen:

- In 63% der Fälle von natürlich auftretenden Fehlern bevorzugten die Menschen die Kritik von CriticGPT.

- CriticGPT reduzierte unnötige „Kritik“ und Fehlalarme/Halluzinationen.

- In 24% der zuvor als perfekt angesehenen Fälle entdeckte und bestätigte CriticGPT erfolgreich Fehler.

Potenzielle Anwendungen und Einschränkungen

Obwohl CriticGPT hauptsächlich für die Code-Überprüfung entwickelt wurde, zeigen die Untersuchungen, dass es das Potenzial hat, auf Nicht-Code-Aufgaben erweitert zu werden. Das Modell weist jedoch auch einige Einschränkungen auf:

1. Es wurde hauptsächlich mit kürzeren ChatGPT-Antworten trainiert und ist möglicherweise nicht für komplexere Aufgaben geeignet.

2. Obwohl das fiktive Verhalten reduziert wurde, konnte es nicht vollständig eliminiert werden.

3. Es gibt noch Verbesserungspotenzial bei der Erkennung von Fehlern, die über mehrere Teile verteilt sind.

Zukunftsaussichten

OpenAI plant, ähnliche Modelle wie CriticGPT in seine RLHF-Kennzeichnungs-Pipeline zu integrieren, um Trainern KI-Unterstützung zu bieten. Dies stellt einen wichtigen Fortschritt bei der Entwicklung von Werkzeugen zur Bewertung der Ausgabe großer Sprachmodelle (LLM) dar. Die Forscher betonen jedoch auch, dass selbst mit KI-Unterstützung extrem komplexe Aufgaben für menschliche Bewerter weiterhin eine Herausforderung darstellen.

Mit der Weiterentwicklung der KI-Technologie werden Innovationen wie CriticGPT eine Schlüsselrolle bei der Verbesserung der Genauigkeit und Zuverlässigkeit von KI-Systemen spielen und die weitere Angleichung von KI an die menschlichen Bedürfnisse fördern.

Adresse: https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/