Google DeepMindチームは、1000億個の画像とテキストのペアを含む大規模なデータセット「WebLI-100B」を正式に公開しました。このデータセットは、人工知能の視覚言語モデルの文化的多様性と多言語性を向上させることを目的としています。このデータセットを通じて、研究者たちは、異なる文化や言語環境における視覚言語モデルのパフォーマンスを改善し、サブグループ間の性能差を縮小することで、人工知能の包括性を高めたいと考えています。
視覚言語モデル(VLMs)は、画像とテキストを関連付ける方法を学習し、画像キャプション生成や視覚的質問応答などのタスクを実行するために、大量のデータセットに依存しています。従来、これらのモデルはConceptual CaptionsやLAIONなどの大規模データセットに主に依存していましたが、これらのデータセットは数百万から数十億の画像とテキストのペアを含んでいても、進歩の速度は100億ペア規模で頭打ちとなり、モデルの精度と包括性をさらに向上させる上で限界がありました。
WebLI-100Bデータセットの公開は、まさにこの課題に対処するためのものです。従来のデータセットとは異なり、WebLI-100Bは厳格なフィルタリング方法に依存していません。厳格なフィルタリングは重要な文化的詳細を削除してしまうことが多いからです。代わりに、特にリソースの少ない言語や多様な文化的表現といった分野において、データの範囲を広げることに重点を置いています。研究チームは、WebLI-100Bの異なるサブセット上でモデルを事前学習することで、データ規模がモデルのパフォーマンスに与える影響を分析しました。
テストの結果、完全なデータセットを使用してトレーニングされたモデルは、計算リソースが同じ場合でも、小規模なデータセットでトレーニングされたモデルよりも、文化的および多言語タスクにおいて明らかに優れたパフォーマンスを示しました。さらに、データセットを100億ペアから1000億ペアに拡大すると、西洋中心のベンチマークテストへの影響は小さいものの、文化的ダイバーシティタスクやリソースの少ない言語の検索においては著しく改善されることがわかりました。
論文:https://arxiv.org/abs/2502.07617
要点:
🌐 ** 新しいデータセット **:WebLI-100Bは、1000億個の画像とテキストのペアを含む巨大なデータセットであり、AIモデルの文化的多様性と多言語性を向上させることを目的としています。
📈 ** モデル性能の向上 **:WebLI-100Bデータセットを使用してトレーニングされたモデルは、多文化および多言語タスクにおいて、従来のデータセットよりも優れたパフォーマンスを示します。
🔍 ** バイアスの軽減 **:WebLI-100Bのデータセットは厳格なフィルタリングを避け、より多くの文化的詳細を保持することで、モデルの包括性と精度を向上させています。