Kürzlich hat die Modelers-Community (魔乐社区) offiziell Step-Video und Step-Audio, zwei Open-Source-Multimodal-Large-Language-Modelle (LLMs) von Step-Star (阶跃星辰) entwickelt, veröffentlicht. Diese Modelle dienen der Videogenerierung bzw. der Sprachinteraktion und sollen Entwicklern und Unternehmen leistungsstärkere KI-Tools bieten.
Step-Video, mit dem vollständigen Namen Step-Video-T2V, ist mit 30 Milliarden Parametern das weltweit größte Open-Source-Modell zur Videogenerierung. Das Modell kann direkt qualitativ hochwertige Videos mit 204 Frames und einer Auflösung von 540p generieren und übertrifft bestehende Top-Open-Source-Videomodelle in Bezug auf Anweisungsbefolgung, Bewegungsglätte, physikalische Plausibilität und Ästhetik. Step-Audio hingegen ist das branchenweit erste Large Language Model, das Sprache mit verschiedenen Emotionen, Dialekten, Sprachen, Gesangsstilen und individuellen Persönlichkeiten generieren kann. Die Veröffentlichung dieser Technologie markiert einen wichtigen Durchbruch im Bereich der KI-Sprachinteraktion.
Bildquelle: Das Bild wurde mit KI generiert und ist durch Midjourney lizenziert.
Erwähnenswert ist, dass diese Modelle auf der heterogenen Rechenarchitektur Huawei Ascend CANN und Ascend-Servern angepasst wurden. Entwickler und Unternehmen können diese Modelle bequem in der Modelers-Community herunterladen und testen. Um die Nutzung weiter zu vereinfachen, bietet die Modelers-Community kostenlose Rechenleistung, sodass Benutzer die Modelle online testen können, ohne komplexe Umgebungen einrichten zu müssen, und ihre KI-Lösungen schnell validieren können.
Darüber hinaus haben die Open-Source-Modelle von Step-Star die Aufmerksamkeit mehrerer branchenführender Unternehmen auf sich gezogen, darunter Tianshu Zhixin, Alibaba Cloud, Volcano Engine und TCL. Viele Unternehmen aus verschiedenen Branchen haben sich bereits diesem Open-Source-Ökosystem angeschlossen. Step-Star plant, im März ein neues Bild-zu-Video-Modell auf den Markt zu bringen, um sein Produktportfolio weiter zu erweitern.
Die Zusammenarbeit zwischen Huawei Ascend und Step-Star erweitert nicht nur die Anwendungsszenarien von multimodalen KI-Modellen, sondern bietet Entwicklern auch leistungsstärkere Tools und fördert den technischen Fortschritt der gesamten Branche.