マイクロソフトは、マルチモーダルモデルLLaVA-1.5を最新リリースしました。これは、クロスモーダルコネクタと学術的なビジュアル質問応答データセットを導入することで、複数の分野で成功裏にテストされています。
このモデルは、オープンソースモデルの中で最高レベルの性能を達成しただけでなく、視覚、言語、ジェネレーターなどの複数のモジュールを統合しています。テストによると、LLaVA-1.5の性能はGPT-4Vに匹敵し、画期的な技術的ブレークスルーと言えるでしょう。
マイクロソフトは、マルチモーダルモデルLLaVA-1.5を最新リリースしました。これは、クロスモーダルコネクタと学術的なビジュアル質問応答データセットを導入することで、複数の分野で成功裏にテストされています。
このモデルは、オープンソースモデルの中で最高レベルの性能を達成しただけでなく、視覚、言語、ジェネレーターなどの複数のモジュールを統合しています。テストによると、LLaVA-1.5の性能はGPT-4Vに匹敵し、画期的な技術的ブレークスルーと言えるでしょう。
先日、魔楽コミュニティ(Modelers)で、階躍星辰が開発したオープンソースのマルチモーダル大規模モデルであるStep-VideoとStep-Audioが正式に公開されました。これらのモデルは、それぞれ動画生成と音声対話に使用され、開発者と企業ユーザーにより強力なAIツールを提供することを目指しています。Step-Videoモデルの正式名称はStep-Video-T2Vで、300億パラメーターという世界最大のオープンソース動画生成モデルです。このモデルは、20秒の動画を直接生成できます。
最近のポッドキャストで、マイクロソフトCEOのサティア・ナデラ氏は、言語モデルの成熟に伴い、AIモデルが標準化、コモディティ化しつつあると述べました。この変化により、企業のAI開発戦略の中心が、単なるモデル開発からシステム統合と製品開発へとシフトしていると指摘。ナデラ氏は、モデルだけでは不十分であり、企業は完全なシステムアーキテクチャと成功する製品に注目する必要があると強調しました。「現在のAI業界は、波のような活動の真っ只中にある」と述べ、2022年11月以降の状況を説明しました。