Am 22. Januar 2025 gab ByteDance' Tochterunternehmen Volcano Engine die offizielle Veröffentlichung des Doubao-Sprachmodells 1.5 und dessen vollständige Einführung auf der Volcano Ark-Plattform bekannt. Die in dieser Veröffentlichung präsentierte Version 1.5 des Doubao-Sprachmodells erzielte in mehreren Bereichen deutliche Leistungssteigerungen und erreichte ein weltweit führendes Niveau. Dies markiert einen weiteren wichtigen Durchbruch von ByteDance im Bereich der künstlichen Intelligenz.

Das Doubao-Sprachmodell 1.5 umfasst mehrere Versionen. Doubao-1.5-pro erzielte in mehreren maßgeblichen Benchmark-Tests zu Wissen, Code, Inferenz und Chinesisch die besten Ergebnisse und übertraf in seiner Gesamtleistung branchenführende Modelle wie GPT-4o und Claude3.5 Sonnet. Doubao-1.5-lite hingegen zeichnet sich unter den leichtgewichtigen Sprachmodellen aus und erreicht eine Leistung, die mit der vorherigen Version Doubao-pro-32k-0828 vergleichbar ist, was den Nutzern ein besseres Preis-Leistungs-Verhältnis bietet. Darüber hinaus wurde Doubao-1.5-vision-pro in Bezug auf die mehrmodale Datensynthese, die dynamische Auflösung und die mehrmodale Ausrichtung umfassend aktualisiert. Dies verbesserte die visuelle Inferenz und das Verständnis von detaillierten Informationen und führte zu führenden Ergebnissen in mehreren maßgeblichen Benchmark-Tests.

微信截图_20250122134135.png

Die neue Version des Doubao-Sprachmodells 1.5 beinhaltet auch das Doubao-Echtzeit-Sprachmodell, das eine End-to-End-Sprachkonversation ermöglicht und sich durch geringe Latenz und die Möglichkeit, Unterbrechungen während des Gesprächs zuzulassen, auszeichnet. Dies stellt einen neuen Durchbruch im Bereich der Sprachinteraktion dar. Volcano Engine plant, im ersten Halbjahr über die Ark-Plattform entsprechende API-Dienste bereitzustellen, um die breite Anwendung der Sprachtechnologie weiter voranzutreiben.

Das Doubao-Sprachmodell 1.5 verwendet in seiner technischen Architektur eine groß angelegte, spärliche MoE-Architektur (Mixture of Experts). Mit relativ wenigen Aktivierungsparametern erreicht es die Leistung eines Dense-Modells mit dem 7-fachen an Aktivierungsparametern, was die übliche Effizienz der Branche deutlich übertrifft. Gleichzeitig senkten die von ByteDance selbst entwickelten Server-Cluster-Lösungen und Netzwerkadapter-Technologien die Hardwarekosten erheblich, optimierten die Effizienz der kleinen Paketkommunikation und sicherten die Stabilität und Effizienz der verteilten Inferenz auf mehreren Maschinen. Darüber hinaus wurden bei der Schulung des Doubao-Sprachmodells 1.5 keine Daten anderer Modelle verwendet. Es wurde ein vollständig eigenständiges System zur Datenproduktion aufgebaut, um die Unabhängigkeit und Zuverlässigkeit der Datenquellen zu gewährleisten.

Es ist erwähnenswert, dass das Doubao-Sprachmodell 1.5 trotz der deutlichen Leistungssteigerungen und Verbesserungen bei den Funktionen seinen Preis beibehält und weiterhin dem Prinzip „Mehr Leistung zum gleichen Preis“ folgt. ByteDance setzt sich für die Demokratisierung der KI-Technologie ein, damit mehr Unternehmen und Entwickler von diesen fortschrittlichen technologischen Errungenschaften profitieren können.

Testversion: https://team.doubao.com/doubao_1_5_pro