アリババクラウド魔搭、階躍星辰の最新オープンソースの2つのマルチモーダルモデルを初公開

先日、魔楽コミュニティ(Modelers)で、階躍星辰が開発したオープンソースのマルチモーダル大規模モデルであるStep-VideoとStep-Audioが正式に公開されました。これらのモデルは、それぞれ動画生成と音声対話に使用され、開発者と企業ユーザーにより強力なAIツールを提供することを目指しています。Step-Videoモデルの正式名称はStep-Video-T2Vで、300億パラメーターという世界最大のオープンソース動画生成モデルです。このモデルは、20秒の動画を直接生成できます。
本日、階躍星辰と吉利汽車集団は、階躍Stepシリーズのマルチモーダル大規模モデル2つ——Step-Video-T2V動画生成モデルとStep-Audio音声モデル——を共同でオープンソース化すると発表しました。その中で、階躍Step-Video-T2V動画生成モデルは、パラメータ数と性能において世界をリードするレベルにあります。このモデルは300億個のパラメータを持ち、204フレーム、540Pの高解像度動画を直接生成でき、生成されたコンテンツの情報密度が高く、一貫性が高いことを保証します。評価結果によると、
先日、マイクロソフトリサーチはワシントン大学、スタンフォード大学、南カリフォルニア大学、カリフォルニア大学デービス校、カリフォルニア大学サンフランシスコ校の研究者らと共同で、LLaVA-Radを発表しました。これは、臨床放射線医学レポート作成の効率向上を目指した、新しい小型マルチモーダルモデル(SMM)です。このモデルの発表は、医学画像処理技術の大きな進歩を示すだけでなく、放射線医学の臨床応用にも新たな可能性をもたらします。バイオメディカル分野では、大規模基礎モデルに基づいた研究が進展しています。