Kürzlich verbesserte Google sein Gemini-KI-Projekt, indem es dessen Ergebnisse mit dem Claude-Modell von Anthropic verglich. Interne Kommunikationsaufzeichnungen, die TechCrunch einsehen konnte, zeigen, dass für die Verbesserung von Gemini zuständige Auftragnehmer die Antworten beider KI-Modelle systematisch bewerten.
Bildquelle: Das Bild wurde mit KI generiert, Lizenzgeber: Midjourney
In der KI-Branche wird die Leistung von Modellen üblicherweise anhand von Branchen-Benchmark-Tests bewertet, nicht indem Auftragnehmer die Antworten verschiedener Modelle einzeln vergleichen. Die für Gemini zuständigen Auftragnehmer müssen die Ausgaben der Modelle nach mehreren Kriterien bewerten, darunter Genauigkeit und Detailliertheit. Sie haben jeweils bis zu 30 Minuten Zeit, um zu beurteilen, welche Antwort von Gemini und Claude besser ist.
In letzter Zeit bemerkten diese Auftragnehmer auf der von ihnen verwendeten internen Plattform häufige Verweise auf Claude. Ein Teil der den Auftragnehmern angezeigten Inhalte lautete deutlich: „Ich bin Claude, erstellt von Anthropic.“ In einem internen Chat stellten die Auftragnehmer außerdem fest, dass Claudes Antworten die Sicherheit stärker betonten. Ein Auftragnehmer bemerkte, dass Claudes Sicherheitseinstellungen die strengsten aller KI-Modelle seien. In einigen Fällen reagierte Claude nicht auf Anfragen, die er als unsicher einstufte, z. B. das Rollenspiel als anderer KI-Assistent. In einem anderen Fall wich Claude einer Aufforderung aus, während Geminis Antwort wegen des Inhalts „Nacktheit und Fesseln“ als „erheblicher Sicherheitsverstoß“ markiert wurde.
Es ist zu beachten, dass die Geschäftsbedingungen von Anthropic es Kunden verbieten, Claude ohne Genehmigung zur „Entwicklung konkurrierender Produkte oder Dienstleistungen“ oder zum „Training konkurrierender KI-Modelle“ zu verwenden. Google ist einer der Hauptinvestoren von Anthropic.
Shira McNamara, Sprecherin von Google DeepMind, erklärte in einem Interview mit TechCrunch, ob Google die Genehmigung von Anthropic zur Verwendung von Claude erhalten habe, nicht. McNamara sagte, DeepMind vergleiche tatsächlich Modell-Outputs zum Zwecke der Bewertung, trainiere Gemini aber nicht mit dem Claude-Modell. Sie erwähnte: „Natürlich vergleichen wir, wie in der Branche üblich, in einigen Fällen Modell-Outputs. Jede Aussage darüber, dass wir Gemini mit dem Anthropic-Modell trainiert haben, ist jedoch ungenau.“
Letzte Woche berichtete TechCrunch exklusiv, dass Googles Auftragnehmer aufgefordert wurden, die KI-Antworten von Gemini auch außerhalb ihres Fachgebiets zu bewerten. Einige Auftragnehmer äußerten in interner Kommunikation Bedenken, dass Gemini möglicherweise ungenaue Informationen zu sensiblen Themen wie der Gesundheitsversorgung generiert.
Wichtigste Punkte:
🌟 Gemini wird mit Claude verglichen, um die Leistung des eigenen KI-Modells zu verbessern.
🔍 Auftragnehmer bewerten die Antworten nach verschiedenen Kriterien, darunter Genauigkeit und Sicherheit.
🚫 Anthropic verbietet die Verwendung von Claude zum Training konkurrierender Modelle ohne Genehmigung.