AIスタートアップ企業Cohereの非営利研究機関が今週、マルチモーダル「オープン」AIモデルであるAya Visionを発表しました。同研究機関は、このモデルが業界をリードするものであると主張しています。
Aya Visionは、画像の説明作成、写真関連の質問への回答、テキスト翻訳、23の主要言語での要約生成など、複数のタスクを実行できます。Cohereは、WhatsAppを通じてAya Visionを無料で提供することで、世界中の研究者が技術革新に容易にアクセスできるようにすることを目指しています。
Cohereはブログで、AIは目覚ましい進歩を遂げているものの、特にテキストと画像を含むマルチモーダルのタスクにおいて、異なる言語間のモデルのパフォーマンスに大きな差があることを指摘しています。「Aya Visionの目標は、この差を縮めることです。」
Aya Visionには、Aya Vision 32BとAya Vision 8Bの2つのバージョンがあります。より高度なAya Vision 32Bは「新たな境界」と呼ばれ、MetaのLlama-3.290B Visionなど、2倍の規模のモデルを凌駕する性能を一部の視覚的理解ベンチマークテストで示しました。一方、Aya Vision 8Bも、一部の評価において10倍の規模のモデルを上回る性能を示しています。
これらのモデルは、AI開発プラットフォームHugging Face上でクリエイティブ・コモンズ4.0ライセンスで提供され、ユーザーはCohereの許容利用規約に従う必要があり、商用利用はできません。
Cohereによると、Aya Visionのトレーニングには「多様な」英語データセットが使用され、それらのデータセットを翻訳した後、合成アノテーションを使用してトレーニングが行われました。合成アノテーションとは、AIによって生成されたアノテーションであり、モデルがトレーニング中にデータの理解と解釈を助けます。合成データには潜在的な欠点がありますが、OpenAIなどの競合他社も、モデルのトレーニングに合成データをますます使用しています。
Cohereは、合成アノテーションを使用してAya Visionをトレーニングすることで、リソースの使用量を削減しながら、競争力のあるパフォーマンスを実現できたと述べています。「これは、より少ない計算リソースでより多くの成果を上げるという、私たちの効率性への重視を示しています。」
研究界をさらに支援するために、Cohereは新しいベンチマーク評価ツールであるAyaVisionBenchも発表しました。これは、2つの画像の違いを識別したり、スクリーンショットをコードに変換したりするなど、視覚と言語を組み合わせたタスクにおけるモデルの能力を評価することを目的としています。
現在、AI業界は、いわゆる「評価危機」に直面しています。これは、広く使用されている一般的なベンチマークが、多くのAIユーザーが関心を持つタスクの能力との相関性が低いことが原因です。Cohereは、AyaVisionBenchが、モデルのクロスリンガルおよびマルチモーダルな理解を評価するための「広範かつ挑戦的な」フレームワークを提供すると主張しています。
公式ブログ: https://cohere.com/blog/aya-vision
要点:
🌟 Aya Visionモデルは、Cohereによって業界最高と評価されており、複数の言語と視覚タスクを実行できます。
💡 Aya Visionには32Bと8Bの2つのバージョンがあり、より大規模な競合モデルを上回る性能を示しています。
🔍 Cohereは、AIモデルの評価問題を改善することを目的とした新しいベンチマーク評価ツールAyaVisionBenchも発表しました。