Heute veröffentlicht der Doubao-Großmodell-Offizielle die 8 wichtigsten Meilensteine des Doubao-Großmodells! Seit seinem Debüt am 15. Mai 2024 hat sich das Doubao-Großmodell in 230 Tagen rasant entwickelt. Von den ersten Sprachversuchen über die neugierige Erkundung der Welt bis hin zur Gestaltung fantastischer Träume für Kreative – jeder Schritt war voller Herausforderungen und Erfolge.
1. Durchbruch bei der Spracherkennung und emotionalen Ausdruck
Im Juli erzielte das Doubao-Großmodell einen bedeutenden Durchbruch im Bereich der Spracherkennung: Es versteht Mischgespräche aus über 20 Dialekten und kann gleichzeitig zuhören und nachdenken. Darüber hinaus hat es gelernt, Emotionen im Gespräch auszudrücken, kann flüssig in Konversationen eingreifen und behält sogar Schlucklaute und Akzente bei – typische Merkmale menschlicher Sprache. Die Kerntechnologie dahinter sind die Doubao-Spracherkennungsmodell Seed-ASR und das Sprachgenerierungs-Basismodell Seed-TTS. Diese Modelle integrieren umfassendere Daten und Inferenzketten, was ihnen eine extrem hohe Generalisierungsfähigkeit verleiht.
2. Die Geburt der KI-Band
Im September realisierte das Doubao-Großmodell innovativ das Konzept der „KI-Band“. Von der Komposition und dem Songwriting über die Generierung des Spiels bis hin zum Gesang beherrscht das Doubao-Großmodell über 10 musikalische Fähigkeiten und kann die Musikproduktion mit unerwarteten Inspirationen bereichern. Die zugrundeliegende Technologie ist das Seed-Music-Framework, das die Vorteile von Sprachmodellen und Diffusionsmodellen kombiniert und ein universelles Framework für die Musikgenerierung mit hoher Bearbeitbarkeit bietet.
3. Präzise Videogenerierung und Kamerakontrolle
Im selben Monat erweiterte das Doubao-Großmodell die Grenzen der Kreativität weiter und kann anhand komplexer Aufforderungen mehrteilige HD-Videos generieren und die Kameraperspektive präzise steuern. Mit Hilfe der beiden Videogenerierungsmodelle PixelDance und Seaweed kann das Doubao-Großmodell qualitativ hochwertige Videos mit synchroner Audiogenerierung erstellen und den Kreativen ein realistischeres und traumhafteres visuelles Erlebnis bieten.
4. Upgrade der Bildbearbeitungs- und Kreativfähigkeiten
Im November beherrschte das Doubao-Großmodell die Funktionen „Bildbearbeitung mit einem Satz“ und „Ein-Klick-Plakaterstellung“. Benutzer können mit einfachen Textaufforderungen präzise Bildbearbeitungen und Textgenerierungen durchführen. Durch das ständig weiterentwickelte Text-zu-Bild-Modell SeedEdit kann Doubao komplexe Szenen präzise darstellen und eine durch natürliche Sprache gesteuerte Bildbearbeitung ermöglichen.
5. Quantensprung in der Programmierfähigkeit
Im Dezember verbesserte sich die Programmierfähigkeit des Doubao-Großmodells erheblich und es wurde zu einem KI-Programmierer und Datenanalysten. Mit Doubao MarsCode können Benutzer problemlos Code schreiben, Daten verarbeiten und visuelle Analysen durchführen. Das Code-Großmodell Doubao-coder unterstützt 16 Programmiersprachen und erfüllt die Anforderungen der Full-Stack-Programmierung, einschließlich Frontend- und Backend-Entwicklung sowie maschinellem Lernen.
6. Extreme Textverständnis- und Verarbeitungsfähigkeit
Das Doubao-Großmodell hat auch die Grenzen des Kontextfensters auf 3 Millionen Wörter erweitert, kann größere Textmengen verarbeiten und benötigt nur 15 Sekunden Verarbeitungsdauer pro Million Tokens. Durch Algorithmen zur Verknüpfung von Daten wie STRING kann das Doubao-Großmodell schnell auf umfangreiche externe Kenntnisse zugreifen und ein präziseres Verständnis bieten.
7. Durchbruch bei der visuellen Wahrnehmung und dem tiefen Denken
Mitte Dezember erreichte das Doubao-Großmodell visuelle Wahrnehmungsfähigkeiten und kann mehrere Sinne für tiefes Denken integrieren. Es kann nicht nur Bilder genau verstehen, sondern auch komplexe Berechnungen durchführen, z. B. eine Integralrechnung fotografieren – ein Beweis für seine hervorragenden Fähigkeiten im crossmodalen Lernen und Schließen.
8. Das umfassend aktualisierte Universalmodell Doubao-pro
Mitte Dezember wurde das Doubao-Universalmodell Doubao-pro umfassend aktualisiert, seine Fähigkeiten wurden auf GPT-4 abgestimmt und es lernte, während der Beantwortung zu „reflektieren“. Dieses Upgrade verbesserte die Genauigkeit und Qualität der Ergebnisse von Doubao-pro und machte es zu einem hocheffizienten „Sechseckkämpfer“ mit ausgewogener Leistung in allen Bereichen – ein weiterer Meilenstein im Bereich der KI.
In diesem Jahr hat das Doubao-Großmodell-Team bemerkenswerte Fortschritte in der KI-Grundlagenforschung erzielt. Das Team veröffentlichte 57 Artikel und präsentierte seine Arbeit auf Top-Konferenzen wie ICLR, CVPR und NeurIPS. Darüber hinaus arbeitet das Doubao-Großmodell-Team eng mit mehreren Top-Universitäten zusammen und hat gemeinsame Labore gegründet, um die Entwicklung der KI-Technologie voranzutreiben.
Das Doubao-Großmodell hat nicht nur technologische Durchbrüche erzielt, sondern wird auch in vielen Branchen eingesetzt. Über Volcano Engine beliefert das Doubao-Großmodell über 30 Branchen und verzeichnet eine tägliche Token-Aufrufmenge von über 4 Billionen, ein 33-faches Wachstum im Vergleich zum Mai.
Offizielle Adresse:https://mp.weixin.qq.com/s/KVfu86njzyK2iK4j6VJONw