この度、魔乐社区(Modelers)は、階躍星辰が開発したオープンソースのマルチモーダル大規模言語モデル、Step-VideoとStep-Audioを正式にリリースしました。これらのモデルは、それぞれ動画生成と音声対話に使用され、開発者と企業ユーザーに強力なAIツールを提供することを目的としています。
Step-Videoモデルの正式名称はStep-Video-T2Vで、パラメーター数が300億にも及ぶ、世界最大級のオープンソース動画生成モデルです。このモデルは、204フレーム、540Pの高解像度動画を直接生成でき、指示への従順性、モーションの滑らかさ、物理的な妥当性、美しさなどの点で、市場に出回っている最先端のオープンソース動画モデルを凌駕しています。一方、Step-Audioは、様々な感情、方言、言語、歌唱スタイル、個性的なスタイルの音声を生成できる業界初のAI大規模言語モデルです。この技術の発表は、AI音声対話分野における重要なブレークスルーを意味します。
画像出典:AI生成画像、画像ライセンス提供元Midjourney
特筆すべきは、これらのモデルがHuawei昇騰CANN異種計算アーキテクチャと昇騰サーバーに適合していることです。開発者と企業ユーザーは、魔乐社区でこれらのモデルを簡単にダウンロードして体験できます。さらに使いやすさを向上させるため、魔乐社区は無料の計算リソースを提供しており、ユーザーは複雑な環境構築を行うことなく、オンラインでモデル推論を実行し、AIソリューションを迅速に検証できます。
さらに、階躍星辰のオープンソースモデルは、天数智芯、阿里雲、火山引擎、TCLなど、様々な業界のリーダー企業から注目を集めており、これらの企業が既にこのオープンソースエコシステムに参加しています。今後、階躍星辰は3月に新しい画像生成動画モデルを発表し、製品ラインをさらに充実させる予定です。
Huawei昇騰と階躍星辰のこの協力関係は、マルチモーダルAIモデルの適用範囲を広げるだけでなく、開発者により強力なツールを提供し、業界全体の技術進歩を促進します。