オープンソースGPT-4 Visionの代替案が登場間近

VentureBeat

公開日AIニュース · 1 分で読めます · Oct 12, 2023

LLaVA 1.5: オープンソースのマルチモーダル言語モデル

この記事では、オープンソースコミュニティで開発中のマルチモーダル言語モデル、LLaVA 1.5を紹介します。これは複数の生成AIコンポーネントを統合しており、最適化によって計算効率が非常に高く、多くのタスクで高い精度を実現しています。

LLaVA 1.5は、CLIPをビジュアルエンコーダーとして、オープンソースのLLaMA言語モデルを使用し、MLPコネクターで接続されています。約60万個のトレーニングサンプルと1日間のトレーニングで、マルチモーダルベンチマークテストにおいて他のオープンソースモデルを上回ることができました。

LLaVA 1.5には使用上の制限がありますが、オープンソースコミュニティの革新的な方向性を示しており、オープンソースの大規模モデルの発展を促進し、ユーザーにより便利で効率的な生成AIツールを提供することが期待されます。

ファーウェイ昇騰と階躍星辰、オープンソースのマルチモーダルモデルを発表 AI新分野に進出

先日、魔楽コミュニティ（Modelers）で、階躍星辰が開発したオープンソースのマルチモーダル大規模モデルであるStep-VideoとStep-Audioが正式に公開されました。これらのモデルは、それぞれ動画生成と音声対話に使用され、開発者と企業ユーザーにより強力なAIツールを提供することを目指しています。Step-Videoモデルの正式名称はStep-Video-T2Vで、300億パラメーターという世界最大のオープンソース動画生成モデルです。このモデルは、20秒の動画を直接生成できます。