Google Vision Transformerは、Transformerエンコーダーに基づく画像認識モデルです。大規模な画像データを用いて事前学習されており、画像分類などのタスクに使用できます。ImageNet-21kデータセットで事前学習され、ImageNetデータセットで微調整されており、優れた画像特徴抽出能力を備えています。このモデルは、画像を固定サイズの画像パッチに分割し、それらのパッチを線形に埋め込むことで画像データを処理します。また、Transformerエンコーダーでシーケンスデータを処理できるように、入力シーケンスの前に位置エンコーディングを追加しています。ユーザーは、事前学習済みのエンコーダーの上に線形層を追加することで、画像分類などのタスクを実行できます。Google Vision Transformerの利点は、強力な画像特徴学習能力と幅広い適用性です。このモデルは無料で使用できます。