Am 25. Juli veranstaltete Volcano Engine in Chengdu die AI-Innovationstour 2024. Volcano Engine gab bekannt, dass die tägliche Nutzung von Tokens seines Doubao-Großsprachmodells 500 Milliarden überschritten hat. Die durchschnittliche tägliche Token-Nutzung pro Unternehmenskunde ist seit der Veröffentlichung des Modells am 15. Mai um das 22-fache gestiegen. Zhang Xin, Vice President von Volcano Engine, erklärte, dass Volcano Engine sich in Richtung intelligenterer, branchenspezifischerer und regionalerer Lösungen entwickelt und Unternehmen durch Branchenlösungen, Produkte und optimierte Services bei der Umsetzung von Geschäftsinnovationen unterstützt.

Bytedance Douyin Doubao Großsprachmodell

Auf der Konferenz stellte Volcano Engine die neuesten Funktionen des Doubao-Großsprachmodells vor, darunter Verbesserungen in den Bereichen visuelle Bilder, Sprachsynthese und Klangrekonstruktion. Das Doubao-Bildgenerierungsmodell (aus Bild) und das Doubao-Bildgenerierungsmodell (aus Text) zeichnen sich durch die Beibehaltung der ursprünglichen Bildmerkmale und die Verbesserung der Bildqualität aus. Das Doubao-Sprachsynthesemodell und das Doubao-Klangrekonstruktionsmodell haben Verbesserungen bei der Emotionsausdruck und der Wiederherstellung der Stimme des Sprechers gezeigt.

  1. Doubao-Bildgenerierungsmodell (aus Bild): Erhält nicht nur die mehrdimensionalen Merkmale des Originalbildes wie Personenkonturen, Gesichtsausdrücke und räumliche Strukturen in hohem Maße, sondern unterstützt auch über 50 verschiedene Stile und ermöglicht Bildvergrößerung, lokale Neuzeichnungen und Malfunktionen, um die kreative Erweiterung von Bildern zu ermöglichen. Es wird bereits in Anwendungen wie Douyin, Jianying, Doubao und Xinghui eingesetzt und unterstützt Unternehmen wie Samsung und Nubia in Bereichen wie Fotoalben, Tools, E-Commerce-Marketing und Anzeigenplatzierung.

  2. Doubao-Bildgenerierungsmodell (aus Text): Versteht tiefgreifend Informationen über mehrere Hauptmotive, Beziehungen zwischen Haupt- und Nebenmotiven, Personenkonstruktionen und räumliche Konstruktionen. Die Bild-Text-Übereinstimmung ist präziser; es verbessert die Bildqualität gezielter in Bezug auf Licht und Schatten, atmosphärische Farben und die Ästhetik von Personen; optimierte chinesische Inhalte und kann chinesische Personen, Gegenstände, Dynastien, Geographie, Essen, Feste usw. differenziert verstehen.

  3. Doubao-Sprachsynthesemodell: Kann die Handlung und die Charaktere tiefgreifend verstehen und Emotionen korrekt ausdrücken; behält Sprechgewohnheiten wie Schlucken und Akzente bei, erreicht eine menschenähnliche Sprachqualität und sorgt für ein natürlicheres Sprechen; 26 hochwertige, übernatürliche Stimmen für verschiedene Szenarien.

  4. Doubao-Klangrekonstruktionsmodell: Kann mit nur 5 Sekunden eine hochgenaue Klangfarbe reproduzieren, die Sprachmerkmale und den Akzent des Sprechers originalgetreu wiedergeben, unterstützt die Übertragung über 6 Sprachen und die Aussprache ähnelt der von Muttersprachlern.

Gleichzeitig bietet Volcano Ark Kern-Plugins und intelligente Agentenfunktionen sowie eine umfassende datensichere und vertrauenswürdige Lösung, um Unternehmen bei der einfachen Implementierung von Großsprachenmodellen zu unterstützen. Die drei Haupt-Plugins von Toutiao und Douyin wurden aktualisiert und um ein Webseitenanalyse-Plugin und ein Taschenrechner-Plugin erweitert, um die vielfältigen Anwendungsanforderungen von Unternehmen zu erfüllen. Volcano Engine bietet Kouzi Professional an, eine Low-Code-Plattform zum Erstellen von expertenbasierten „AI Bots“, die auf die geschäftlichen Anforderungen von Unternehmen zugeschnitten sind.

Volcano Engine hat außerdem die HiAgent-Plattform für unternehmenseigene KI-Anwendungen entwickelt, um Unternehmen dabei zu unterstützen, die letzte Meile bei der Einführung von Großsprachenmodellen zu meistern. HiAgent unterstützt die schnelle Implementierung und kontinuierliche Optimierung von Unternehmens-KI-Anwendungen umfassend in Bezug auf Geschwindigkeit, Dichte und Tiefe. Die KI-Full-Stack-Cloud von Volcano Engine stützt sich auf die riesigen gepoolten Ressourcen von ByteDance, unterstützt Multi-Chip- und Multi-Cloud-Architekturen, bietet extrem große Rechenleistung, unterstützt die Vernetzung von Zehntausenden von Karten und Großsprachenmodelle mit Billionen von Parametern (MoE).