LLaVA-1.5: 画期的なマルチモーダルモデル

マイクロソフトは、マルチモーダルモデルLLaVA-1.5を最新リリースしました。これは、クロスモーダルコネクタと学術的なビジュアル質問応答データセットを導入することで、複数の分野で成功裏にテストされています。

このモデルは、オープンソースモデルの中で最高レベルの性能を達成しただけでなく、視覚、言語、ジェネレーターなどの複数のモジュールを統合しています。テストによると、LLaVA-1.5の性能はGPT-4Vに匹敵し、画期的な技術的ブレークスルーと言えるでしょう。