Enttäuschend! OpenAI's neues Modell o1 im Praxistest: Elementare Fehler und sogar Rechenfehler!

AIbase基地

Veröffentlicht amKI-Nachrichten und -Informationen · 5 Minuten Lesezeit · Sep 14, 2024

285

Kürzlich hat OpenAI sein mit Spannung erwartetes KI-Modell, zuvor unter dem Codenamen „Erdbeere“ bekannt, offiziell als „o1-preview“ veröffentlicht.

OpenAI versprach, dass dieses neue Modell in anspruchsvollen Benchmark-Aufgaben in Physik, Chemie und Biologie mit Doktoranden mithalten könne. Erste Tests zeigen jedoch, dass die KI noch weit davon entfernt ist, menschliche Wissenschaftler oder Programmierer zu ersetzen.

In den sozialen Medien teilten viele Nutzer ihre Erfahrungen mit der „OpenAI o1“-KI und berichteten von Fehlern bei grundlegenden Aufgaben.

So stellte der Forscher Mathieu Acher von der INSA Rennes fest, dass OpenAI o1 bei einigen Schach-Rätseln häufig ungültige Züge vorschlug.

Der Meta-AI-Wissenschaftler Colin Fraser bemerkte, dass die KI bei einem einfachen Texträtsel über einen Bauern, der Schafe über einen Fluss transportiert, die richtige Lösung verwarf und stattdessen sinnloses Zeug ausgab.

Selbst bei den von OpenAI als Demo verwendeten Logikrätseln, die Erdbeeren zum Thema hatten, erhielten Nutzer unterschiedliche Antworten. Ein Nutzer stellte eine Fehlerquote von 75 % fest.

Einige Nutzer berichteten sogar, dass das neue Modell oft Fehler machte, als es die Anzahl des Buchstabens „R“ im Wort „strawberry“ zählen sollte.

Obwohl OpenAI bei der Veröffentlichung angab, dass es sich um ein frühes Modell handelt, das noch keine Funktionen wie Web-Browsing oder Datei-Upload besitzt, sind diese grundlegenden Fehler dennoch überraschend.

Zur Verbesserung wurde in dem neuen Modell der „Gedankenketten“-Prozess eingeführt, der OpenAI o1 deutlich von dem vorherigen GPT-4o-Modell unterscheidet. Diese Methode erlaubt es der KI, vor der Ausgabe einer Antwort mehrfach zu überprüfen, was jedoch auch zu längeren Antwortzeiten führt.

Ein Nutzer stellte fest, dass das Modell 92 Sekunden benötigte, um die Antwort auf ein Texträtsel zu geben – die Antwort war jedoch falsch.

OpenAIs Forschungsleiter Noam Brown erklärte dazu, dass die derzeitige Antwortgeschwindigkeit zwar langsam sei, aber sie erwarten, dass zukünftige Versionen längere Überlegungen anstellen und möglicherweise sogar neue Erkenntnisse zu bahnbrechenden Problemen liefern können.

Der bekannte KI-Kritiker Gary Marcus äußerte sich jedoch skeptisch und argumentierte, dass lange Verarbeitungszeiten nicht unbedingt zu überlegenen Schlussfolgerungsfähigkeiten führen. Er betonte, dass trotz der fortschreitenden KI-Technologie reale Forschung und Experimente unerlässlich bleiben.

Zusammenfassend lässt sich sagen, dass die Leistung des neuen KI-Modells von OpenAI in der Praxis enttäuschend ist und dies eine Diskussion über die zukünftige Entwicklung der KI-Technologie ausgelöst hat.

Wichtigste Punkte:
🌟 OpenAI hat kürzlich das neue KI-Modell „Erdbeere“ vorgestellt und behauptet, es könne in komplexen Aufgaben mit Doktoranden mithalten.
🤖 Viele Nutzer stellten fest, dass die KI bei grundlegenden Aufgaben häufig Fehler macht, z. B. ungültige Züge in Schachspielen vorschlägt und einfache Rätsel falsch beantwortet.
💬 OpenAI räumt ein, dass sich das Modell noch in der Entwicklung befindet, aber langes Nachdenken führt nicht unbedingt zu besseren Schlussfolgerungen. Viele grundlegende Probleme sind noch ungelöst.

Microsoft und Top-Universitäten präsentieren rStar-Math: Kleine Modelle lösen komplexe Mathematikprobleme – sogar besser als OpenAI!

Microsoft hat kürzlich seine neue rStar-Math-Technologie vorgestellt. Dieses innovative Inferenzverfahren kann auf kleine Sprachmodelle (SLMs) angewendet werden und deren Leistung bei mathematischen Problemen deutlich verbessern – in einigen Fällen sogar besser als das o1-preview-Modell von OpenAI. Die Technologie befindet sich derzeit noch in der Forschungsphase. Die entsprechende Forschungsarbeit wurde auf arXiv.org veröffentlicht und von acht Autoren von Microsoft, der Peking-Universität und der Tsinghua-Universität gemeinsam verfasst. In Tests übertraf die rStar-Math-Technologie...

Studie zeigt: OpenAIs o1-preview übertrifft Ärzte bei der Diagnose komplexer medizinischer Fälle

Eine neue Studie legt nahe, dass OpenAIs KI-System o1-preview menschliche Ärzte bei der Diagnose komplexer medizinischer Fälle übertreffen könnte. Ein Forschungsteam der Harvard Medical School und der Stanford University testete o1-preview umfassend in medizinischen Diagnosetests und stellte einen deutlichen Fortschritt gegenüber früheren Versionen fest. Laut den Studienergebnissen erreichte o1-preview eine korrekte Diagnoseverteilung von 78,3% in allen getesteten Fällen. In einem direkten Vergleich mit 70 spezifischen Fällen...

Übertrifft KI-medizinisches Denken menschliche Ärzte? Harvard, Stanford: o1-Preview-Modell erreicht 80% Genauigkeit bei Diagnosen

Die Anwendung von Künstlicher Intelligenz im medizinischen Bereich erlebt einen weiteren bedeutenden Durchbruch! Eine gemeinsame Studie von Harvard, Stanford und anderen führenden Institutionen zeigt, dass das o1-preview Modell von OpenAI in verschiedenen medizinischen Denkprozessen erstaunliche Fähigkeiten aufweist und sogar menschliche Ärzte übertrifft. Die Studie bewertete nicht nur die Leistung des Modells bei Multiple-Choice-Tests im medizinischen Bereich, sondern konzentrierte sich auch auf dessen diagnostische und managementbezogene Fähigkeiten in simulierten realen klinischen Szenarien, mit bemerkenswerten Ergebnissen. Die Forscher testeten o1- in fünf Experimenten...

Selbst Spitzensysteme scheitern an komplexer Reiseplanung: OpenAI o1-preview hat Probleme

Eine neue Studie zeigt, dass selbst fortschrittliche KI-Sprachmodelle wie OpenAIs neuestes o1-preview bei komplexen Planungsaufgaben Schwierigkeiten haben. Die Studie wurde von Wissenschaftlern der Fudan-Universität, der Carnegie Mellon University, ByteDance und der Ohio State University durchgeführt und testete die Leistung von KI-Modellen auf zwei Planungsbenchmarks: BlocksWorld und TravelPlanner. Bei BlocksWorld, einem klassischen Planungs-