浙江大学紫金港学院の卒業生がマイクロソフト研究所と協力し、GPT-4Vに挑戦するマルチモーダルモデル「LLaVA」を発表しました。
LLaVAは11個のテストデータセットにおいて優れた性能を示し、6,000以上のスターを獲得しました。モデルの総合的な能力は高く、GPT-4Vを85%上回る結果となっています。
LLaVAのオープンソースコード、モデル、およびトレーニングデータは現在利用可能です。
浙江大学紫金港学院の卒業生がマイクロソフト研究所と協力し、GPT-4Vに挑戦するマルチモーダルモデル「LLaVA」を発表しました。
LLaVAは11個のテストデータセットにおいて優れた性能を示し、6,000以上のスターを獲得しました。モデルの総合的な能力は高く、GPT-4Vを85%上回る結果となっています。
LLaVAのオープンソースコード、モデル、およびトレーニングデータは現在利用可能です。
先日、魔楽コミュニティ(Modelers)で、階躍星辰が開発したオープンソースのマルチモーダル大規模モデルであるStep-VideoとStep-Audioが正式に公開されました。これらのモデルは、それぞれ動画生成と音声対話に使用され、開発者と企業ユーザーにより強力なAIツールを提供することを目指しています。Step-Videoモデルの正式名称はStep-Video-T2Vで、300億パラメーターという世界最大のオープンソース動画生成モデルです。このモデルは、20秒の動画を直接生成できます。
世界の開発者の視線が再び中国に注がれています!注目を集めるグローバル・デベロッパー・カンファレンス(GDC)において、アリババクラウド魔搭コミュニティは、階躍星辰の最新オープンソースの2つのマルチモーダルモデルを初公開すると発表しました。これには、世界最大規模のパラメータを持つオープンソースのビデオ生成モデルStep-Video-T2Vと、業界初の製品レベルのオープンソース音声対話モデルStep-Audioが含まれます。このニュースは瞬く間に世界のAIオープンソースコミュニティを席巻し、中国の人工知能分野における強力なイノベーション能力を改めて示しました。中国最大のAI...
先日、マイクロソフトリサーチはワシントン大学、スタンフォード大学、南カリフォルニア大学、カリフォルニア大学デービス校、カリフォルニア大学サンフランシスコ校の研究者らと共同で、LLaVA-Radを発表しました。これは、臨床放射線医学レポート作成の効率向上を目指した、新しい小型マルチモーダルモデル(SMM)です。このモデルの発表は、医学画像処理技術の大きな進歩を示すだけでなく、放射線医学の臨床応用にも新たな可能性をもたらします。バイオメディカル分野では、大規模基礎モデルに基づいた研究が進展しています。