アップルとコロンビア大学の研究者らが共同で、高度な画像理解と記述を目的としたFerret多モーダル言語モデルを開発しました。
このモデルは強力なグローバルな理解能力を備え、自由テキストと参照領域を同時に処理でき、従来のモデルよりも優れた性能を示します。
研究者らは、モデルのトレーニングとFerretの様々なタスクにおける性能評価のために、GRITデータセットを作成しました。その結果、Ferretは参照と位置特定能力において優れた成果を示し、人機インタラクションやスマート検索などの分野で大きな進歩をもたらすことが期待されます。