この度、Googleは、PaliGemma2Mixという全く新しいビジョン・言語モデル(VLM)を発表しました。このモデルは画像処理と自然言語処理の能力を融合し、視覚情報とテキスト入力を同時に理解し、必要に応じて対応する出力を生成できます。これは、人工知能技術が多様なタスク処理において更なる進歩を遂げたことを示しています。

PaliGemma2Mixは非常に強力な機能を備えており、画像キャプション生成、光学文字認識(OCR)、画像質問応答、物体検出、画像セグメンテーションなど、様々なビジョン・言語タスクを統合しています。そのため、幅広い用途に適用可能です。開発者は、事前学習済みチェックポイント(checkpoints)を使用してこのモデルを直接利用したり、独自のニーズに合わせて微調整したりすることができます。

image.png

このモデルは、以前のPaliGemma2を最適化し、混合タスクに特化して調整されており、開発者がその強力な能力を容易に探求できるように設計されています。PaliGemma2Mixは、3B(30億パラメータ)、10B(100億パラメータ)、28B(280億パラメータ)の3種類の規模のパラメータを選択でき、224pxと448pxの2つの解像度をサポートしており、様々な計算資源とタスクのニーズに対応できます。

PaliGemma2Mixの主な機能のハイライトは以下の通りです。

1. 画像キャプション生成:モデルは、牛が浜辺に立っている画像を認識し、詳細な説明を提供するなど、短編と長編の画像説明を生成できます。

2. 光学文字認識(OCR):このモデルは、画像からテキストを抽出し、標識、ラベル、文書の内容を認識し、情報抽出を容易にします。

3. 画像質問応答と物体検出:ユーザーは画像をアップロードして質問することで、モデルが画像を分析して回答を提供します。さらに、動物や車両など、画像内の特定のオブジェクトを正確に識別することもできます。

特筆すべきは、開発者がKaggleとHugging Faceでこのモデルの混合重みをダウンロードして、更なる実験と開発を行うことができる点です。このモデルに興味のある方は、Hugging Faceのデモプラットフォームで試して、その強力な能力と応用可能性を理解することができます。

PaliGemma2Mixの発表により、Googleのビジョン・言語モデル分野における研究はさらに一歩前進しました。この技術が実際の応用においてより大きな価値を発揮することを期待しています。

技術レポート:https://arxiv.org/abs/2412.03555