マイクロソフト、GPT-4Vに匹敵する多様なモダリティモデルLLaVA-1.5をオープンソース化

站长之家

公開日AIニュース · 1 分で読めます · Jan 31, 2024

LLaVA-1.5: 画期的なマルチモーダルモデル

マイクロソフトは、マルチモーダルモデルLLaVA-1.5を最新リリースしました。これは、クロスモーダルコネクタと学術的なビジュアル質問応答データセットを導入することで、複数の分野で成功裏にテストされています。

このモデルは、オープンソースモデルの中で最高レベルの性能を達成しただけでなく、視覚、言語、ジェネレーターなどの複数のモジュールを統合しています。テストによると、LLaVA-1.5の性能はGPT-4Vに匹敵し、画期的な技術的ブレークスルーと言えるでしょう。

ファーウェイ昇騰と階躍星辰、オープンソースのマルチモーダルモデルを発表 AI新分野に進出

先日、魔楽コミュニティ（Modelers）で、階躍星辰が開発したオープンソースのマルチモーダル大規模モデルであるStep-VideoとStep-Audioが正式に公開されました。これらのモデルは、それぞれ動画生成と音声対話に使用され、開発者と企業ユーザーにより強力なAIツールを提供することを目指しています。Step-Videoモデルの正式名称はStep-Video-T2Vで、300億パラメーターという世界最大のオープンソース動画生成モデルです。このモデルは、20秒の動画を直接生成できます。

マイクロソフトCEO、AIモデルはコモディティ化しつつあると発言　システム統合と製品開発が鍵

最近のポッドキャストで、マイクロソフトCEOのサティア・ナデラ氏は、言語モデルの成熟に伴い、AIモデルが標準化、コモディティ化しつつあると述べました。この変化により、企業のAI開発戦略の中心が、単なるモデル開発からシステム統合と製品開発へとシフトしていると指摘。ナデラ氏は、モデルだけでは不十分であり、企業は完全なシステムアーキテクチャと成功する製品に注目する必要があると強調しました。「現在のAI業界は、波のような活動の真っ只中にある」と述べ、2022年11月以降の状況を説明しました。