InternLM-XComposer2
自由形式テキスト画像合成と理解のためのビジョン言語大規模モデル
一般製品デザインビジョン言語モデルテキスト画像合成
InternLM-XComposer2は、自由形式のテキスト画像合成と理解に長けた、最先端のビジョン言語モデルです。従来のビジョン言語を理解するだけでなく、輪郭、詳細なテキスト仕様、参照画像など、様々な入力から複雑に絡み合ったテキストと画像の内容を巧みに構築し、高度にカスタマイズされたコンテンツ作成を実現します。InternLM-XComposer2は、部分LoRA(PLoRA)手法を採用しており、追加のLoRAパラメータを画像トークンに適用することで、事前学習済み言語知識の完全性を維持し、正確なビジョン理解と文学的な才能を持つテキスト構成とのバランスを実現しています。実験結果によると、InternLM2-7BをベースとしたInternLM-XComposer2は、高品質な長テキストマルチモーダルコンテンツの生成において優れた性能を示し、様々なベンチマークテストでも卓越したビジョン言語理解能力を有しており、既存のマルチモーダルモデルを大幅に上回り、一部の評価においてはGPT-4VやGemini Proを凌駕する結果も得られています。これは、マルチモーダル理解分野におけるその卓越した能力を浮き彫りにしています。InternLM-XComposer2シリーズモデルは70億パラメータで、https://github.com/InternLM/InternLM-XComposerで公開されています。
InternLM-XComposer2 最新のトラフィック状況
月間総訪問数
474564576
直帰率
36.20%
平均ページ/訪問
6.1
平均訪問時間
00:06:34