Ferret-UIは、ユーザーインターフェースに焦点を当てた最初のマルチモーダル大規模言語モデル(MLLM)であり、指示理解、位置特定、推論タスク向けに設計されています。Gemma-2BとLlama-3-8Bを基盤として構築されており、複雑なユーザーインターフェースタスクを実行できます。このバージョンはAppleの研究論文に準拠しており、画像テキストからテキストへのタスクに使用できる強力なツールであり、対話型およびテキスト生成においても優れています。