Auf der Volcano Engine FORCE-Antriebskonferenz am 18. Dezember 2024 kündigte Volcano Engine umfassende Upgrades für seine Doubao-Großsprachenmodell-Familie an und präsentierte ein brandneues visuelles Verständnismodell.
Tan Dai, Präsident von Volcano Engine, erklärte, dass die tägliche Nutzung von Doubao-Großsprachenmodell-Tokens in den letzten Monaten sprunghaft auf über 4 Billionen angestiegen ist – ein 33-faches Wachstum gegenüber dem Zeitpunkt der Veröffentlichung im Mai. Dieser Trend zeigt die breite Anwendung von Doubao-Großsprachenmodellen in verschiedenen Szenarien.
Mit der Einführung des visuellen Verständnismodells können Benutzer nun sowohl Text als auch Bilder als Eingabe verwenden. Das Modell versteht beide Eingaben umfassend und liefert präzise Antworten. Diese Innovation vereinfacht die Anwendungsentwicklung erheblich und erschließt das Potenzial von Großsprachenmodellen in zahlreichen weiteren Bereichen.
Das visuelle Verständnismodell verfügt über eine verbesserte Inhaltserkennungsfähigkeit. Es erkennt nicht nur grundlegende Elemente wie Objektkategorien und -formen in Bildern, sondern versteht auch die Beziehungen zwischen Objekten, die räumliche Anordnung und die Gesamtbedeutung der Szene. Beispiele hierfür sind die Erkennung von Schatten oder die Verarbeitung von naturwissenschaftlichem Wissen.
Das visuelle Verständnismodell zeichnet sich durch verbesserte Verständnis- und Schlussfolgerungsfähigkeiten aus. Es kann Inhalte nicht nur besser erkennen, sondern auch komplexe logische Berechnungen basierend auf den erkannten Text- und Bildinformationen durchführen, z. B. Tabellenkalkulationen und physikalische Schlussfolgerungen.
Darüber hinaus bietet es eine detailliertere visuelle Beschreibungsfähigkeit. Es kann den Bildinhalt basierend auf Bildinformationen präziser beschreiben und verschiedene Textstile erstellen, z. B. Bildgestaltung und Bildgedichte.
Das Doubao-visuelle Verständnismodell bietet vielversprechende Anwendungsmöglichkeiten in verschiedenen Bereichen wie Bildung, Tourismus und E-Commerce. Im Bildungsbereich kann es Schülern helfen, Aufsätze zu verbessern und naturwissenschaftliches Wissen zu vermitteln. Im Tourismus kann es Touristen bei der Übersetzung ausländischer Speisekarten und der Erklärung historischer Gebäude helfen. Im E-Commerce kann es Händlern helfen, Produktmerkmale detailliert zu beschreiben und so die Werbewirkung zu verbessern.
Die Nutzungskosten des visuellen Verständnismodells sind sehr günstig: 0,003 Yuan pro tausend Tokens, 85 % unter dem Branchendurchschnitt. Für einen Euro können damit bis zu 284 Bilder mit 720P verarbeitet werden – ein Zeichen dafür, dass die visuelle Verständnistechnologie in das „Cent-Zeitalter“ eingetreten ist. Zusätzlich bietet Volcano Engine Unternehmen und Entwicklern eine anfängliche Datenmenge von bis zu 15.000 Nutzungen an, um die Nutzung dieser Technologie zu erleichtern.
Auf der Konferenz stellte Volcano Engine nicht nur das visuelle Verständnismodell vor, sondern kündigte auch Upgrades für mehrere andere Modelle an. Die umfassende Aufgabenverarbeitungsfähigkeit des Doubao-Universalmodells Pro hat sich seit Mai um 32 % verbessert, mit deutlichen Verbesserungen in den Bereichen Schlussfolgerung, Anweisungsbefolgung, Code und Mathematik. Gleichzeitig wird das Doubao-Videogenerierungsmodell ab Januar 2025 für die Öffentlichkeit zugänglich sein. Unternehmen können sich bereits jetzt für die Nutzung anmelden.
Um die Informationsbeschaffung und die Such- und Empfehlungsmöglichkeiten von Unternehmen zu verbessern, hat Volcano Engine außerdem den allumfassenden KI-Suchdienst eingeführt, der Unternehmen dabei hilft, Informationen und Benutzerbedürfnisse besser zu verknüpfen und die intelligente Transformation verschiedener Branchen voranzutreiben.
Wichtigste Punkte:
🔍 Die tägliche Nutzung von Doubao-Großsprachenmodell-Tokens beträgt 4 Billionen, ein 33-faches Wachstum gegenüber Mai.
💡 Das neue visuelle Verständnismodell unterstützt die gleichzeitige Eingabe von Text und Bildern und eignet sich für Bereiche wie Bildung, Tourismus und E-Commerce.
💰 Die Nutzungskosten betragen nur 0,003 Yuan pro tausend Tokens und liegen deutlich unter dem Branchendurchschnitt.