mPLUG-Owl3
長画像シーケンスを理解するマルチモーダル大規模言語モデル。
一般製品画像マルチモーダル画像理解
mPLUG-Owl3は、長画像シーケンスの理解に特化したマルチモーダル大規模言語モデルです。検索システムから知識を学習し、ユーザーと画像とテキストを交互に用いた対話をしたり、長尺ビデオを視聴して詳細を記憶することができます。モデルのソースコードと重みはHugging Faceで公開されており、Visual Question Answering、マルチモーダルベンチマーク、ビデオベンチマークなどのシナリオに適しています。
mPLUG-Owl3 最新のトラフィック状況
月間総訪問数
474564576
直帰率
36.20%
平均ページ/訪問
6.1
平均訪問時間
00:06:34