Die Aufmerksamkeit der Entwickler weltweit richtet sich erneut auf China! Auf der vielbeachteten Global Developer Conference (GDC) gab die Alibaba Cloud ModelScope Community die Veröffentlichung von zwei neuen multimodalen Modellen von Step-Star bekannt: Step-Video-T2V, das weltweit größte Open-Source-Modell zur Videogenerierung und Step-Audio, das branchenweit erste Open-Source-Sprachinteraktionsmodell in Produktqualität. Diese Nachricht hat die globale Open-Source-AI-Community im Sturm erobert und unterstreicht einmal mehr Chinas starke Innovationskraft im Bereich der künstlichen Intelligenz.

Als größte KI-Modell-Community Chinas präsentiert die Alibaba Cloud ModelScope Community mit diesen beiden Modellen die wohl aktuell aufsehenerregendsten Open-Source-Ergebnisse im multimodalen Bereich weltweit. Step-Video-T2V setzt mit seiner enormen Parameteranzahl einen neuen Standard für Open-Source-Modelle zur Videogenerierung und läutet eine neue Ära der hochwertigen und detaillierten Videoproduktion ein. Step-Audio hingegen überwindet die Grenzen traditioneller Sprachmodelle und ist das erste branchenweit verfügbare Open-Source-Sprachinteraktionssystem in Produktqualität. Dies bedeutet, dass natürlichere und intelligentere Sprachinteraktionstechnologien schneller verbreitet und eingesetzt werden können.

Audio, Schallwellen, intelligente Spracherkennung

Bildquelle: Das Bild wurde mit KI generiert und von Midjourney lizenziert.

Nach offiziellen Angaben umfasst die Alibaba Cloud ModelScope Community bereits über 40.000 Open-Source-Modelle, die alle wichtigen Bereiche abdecken, darunter Large Language Models (LLMs), Dialogsysteme, Sprachtechnologie, Text-zu-Bild- und Bild-zu-Video-Generierung. Die Community behauptet damit unangefochten den Spitzenplatz als größte KI-Modell-Community Chinas. Die Veröffentlichung dieser beiden bedeutenden Modelle auf ModelScope unterstreicht nicht nur die Stärke der Plattform, sondern auch den Beitrag von Step-Star zum Aufbau eines Open-Source-Ökosystems.

Die Vorstellung dieser wichtigen Open-Source-Ergebnisse auf der GDC, einer weltweit beachteten Entwicklerkonferenz, demonstriert eindrucksvoll die dynamische Entwicklung und die offene Kooperationsbereitschaft der chinesischen KI-Technologie. Die Open-Source-Veröffentlichung dieser beiden Modelle wird die Nutzung von KI-Technologien erheblich vereinfachen und die globale Verbreitung und Weiterentwicklung der künstlichen Intelligenz beschleunigen.