OpenAI hat kürzlich ein wichtiges Update veröffentlicht, das dem GPT-4o-Modell die Funktion „Vorhersage-Outputs“ (Predicted Outputs) hinzufügt. Diese innovative Technologie verbessert die Reaktionsgeschwindigkeit des Modells deutlich und erreicht in bestimmten Szenarien bis zu fünfmal die ursprüngliche Geschwindigkeit. Dies bietet Entwicklern ein völlig neues Maß an Effizienz.

Diese von OpenAI und FactoryAI gemeinsam entwickelte Funktion zeichnet sich dadurch aus, dass sie die wiederholte Generierung bekannter Inhalte umgeht. In der Praxis zeigt sie sich besonders effektiv bei Aufgaben wie dem Aktualisieren von Blog-Artikeln, dem Iterieren bestehender Antworten oder dem Umschreiben von Code. Laut Daten von FactoryAI verkürzt sich die Antwortzeit bei Programmieraufgaben um das Zwei- bis Vierfache, wobei Aufgaben, die zuvor 70 Sekunden dauerten, nun innerhalb von 20 Sekunden abgeschlossen werden können.

image.png

Derzeit ist diese Funktion nur über die API für Entwickler verfügbar und unterstützt die Modelle GPT-4o und GPT-4mini. Das Feedback der Anwender ist positiv, viele Entwickler haben die Funktion bereits getestet und ihre Erfahrungen geteilt. Eric Ciarla, Gründer von Firecrawl, sagte bei der Konvertierung von SEO-Inhalten: „Die Geschwindigkeitssteigerung ist bemerkenswert, und die Anwendung ist einfach und direkt.“

Auf technischer Ebene funktioniert die Vorhersage-Output-Funktion, indem sie vorhersehbare Teile von Inhalten erkennt und wiederverwendet. Die OpenAI-Dokumentation nennt als Beispiel das Refactoring von Code: Wenn beispielsweise das Attribut „Username“ in C#-Code in „Email“ geändert werden soll, kann die Generierungsgeschwindigkeit durch Eingabe des gesamten Klassendatei als Vorhersagetext erheblich verbessert werden.

Es gibt jedoch einige Einschränkungen und Hinweise zur Verwendung. Neben den Modellbeschränkungen sind einige API-Parameter bei Verwendung der Vorhersage-Outputs nicht verfügbar, darunter n-Werte größer als 1, logprobs sowie presence_penalty und frequency_penalty größer als 0.

Es ist zu beachten, dass diese Funktion neben der schnelleren Reaktionsgeschwindigkeit auch geringfügig höhere Kosten verursacht. Tests ergaben, dass die Bearbeitungszeit für dieselbe Aufgabe zwar von 5,2 Sekunden auf 3,3 Sekunden reduziert wurde, die Kosten jedoch von 0,1555 Cent auf 0,2675 Cent stiegen. Dies liegt daran, dass OpenAI die Tokens für die vorhergesagten, aber noch nicht endgültig abgeschlossenen Teile ebenfalls mit dem Satz für abgeschlossene Tokens berechnet.

Trotz der geringfügig höheren Kosten ist die Funktion aufgrund der deutlichen Effizienzsteigerung dennoch sehr wertvoll. Entwickler finden detailliertere technische Informationen und Anleitungen in der offiziellen OpenAI-Dokumentation.

OpenAI offizielle Dokumentation:

https://platform.openai.com/docs/guides/latency-optimization#use-predicted-outputs