InternLM-XComposer2

自由形式テキスト画像合成と理解のためのビジョン言語大規模モデル

一般製品デザインビジョン言語モデルテキスト画像合成
InternLM-XComposer2は、自由形式のテキスト画像合成と理解に長けた、最先端のビジョン言語モデルです。従来のビジョン言語を理解するだけでなく、輪郭、詳細なテキスト仕様、参照画像など、様々な入力から複雑に絡み合ったテキストと画像の内容を巧みに構築し、高度にカスタマイズされたコンテンツ作成を実現します。InternLM-XComposer2は、部分LoRA(PLoRA)手法を採用しており、追加のLoRAパラメータを画像トークンに適用することで、事前学習済み言語知識の完全性を維持し、正確なビジョン理解と文学的な才能を持つテキスト構成とのバランスを実現しています。実験結果によると、InternLM2-7BをベースとしたInternLM-XComposer2は、高品質な長テキストマルチモーダルコンテンツの生成において優れた性能を示し、様々なベンチマークテストでも卓越したビジョン言語理解能力を有しており、既存のマルチモーダルモデルを大幅に上回り、一部の評価においてはGPT-4VやGemini Proを凌駕する結果も得られています。これは、マルチモーダル理解分野におけるその卓越した能力を浮き彫りにしています。InternLM-XComposer2シリーズモデルは70億パラメータで、https://github.com/InternLM/InternLM-XComposerで公開されています。
ウェブサイトを開く

InternLM-XComposer2 最新のトラフィック状況

月間総訪問数

474564576

直帰率

36.20%

平均ページ/訪問

6.1

平均訪問時間

00:06:34

InternLM-XComposer2 訪問数の傾向

InternLM-XComposer2 訪問地理的分布

InternLM-XComposer2 トラフィックソース

InternLM-XComposer2 代替品