この記事では、オープンソースコミュニティで開発中のマルチモーダル言語モデル、LLaVA 1.5を紹介します。これは複数の生成AIコンポーネントを統合しており、最適化によって計算効率が非常に高く、多くのタスクで高い精度を実現しています。
LLaVA 1.5は、CLIPをビジュアルエンコーダーとして、オープンソースのLLaMA言語モデルを使用し、MLPコネクターで接続されています。約60万個のトレーニングサンプルと1日間のトレーニングで、マルチモーダルベンチマークテストにおいて他のオープンソースモデルを上回ることができました。
LLaVA 1.5には使用上の制限がありますが、オープンソースコミュニティの革新的な方向性を示しており、オープンソースの大規模モデルの発展を促進し、ユーザーにより便利で効率的な生成AIツールを提供することが期待されます。