中国におけるGPT-4Vのオープンソース代替モデル

清華大学や浙江大学などの名門大学が、GPT-4Vのオープンソース代替策を推進し、中国では数々の高性能なオープンソースビジョンモデルが登場しました。その中でも、LLaVA、CogAgent、BakLLaVAが注目を集めています。

LLaVAは、ビジュアルチャットや推論型質問応答において、GPT-4に匹敵する能力を示しています。一方、CogAgentはCogVLMを改良したオープンソースのビジョン言語モデルです。さらに、BakLLaVAはLLaVA1.5アーキテクチャで強化されたMistral7Bベースモデルであり、より優れた性能と商用可能性を備えています。

これらのオープンソースビジョンモデルは、画像処理分野において計り知れない可能性を秘めています。