Meta Reality Labsは最近、「Sapiens」という人工知能モデルを発表しました。これは、人間の視覚タスク処理において大きなブレイクスルーを達成したモデルです。Sapiensモデルは、画像やビデオ内の人物とその動作を分析・理解するために特別に設計されており、3億枚を超える人間の画像で厳格なトレーニングを受けています。複雑な環境やデータが不足している場合でも、優れた性能を発揮します。
Sapiensモデルは3億枚を超える人間の画像に基づいてトレーニングされており、複雑な環境下での人間の視覚タスク処理において卓越した能力を示しています。その主な機能には、2Dポーズ推定、ボディパーツセグメンテーション、深度推定、サーフェスノーマル予測などがあります。これらの機能により、Sapiensは人体姿勢を正確に認識し、身体の各部分を細かく区別し、画像内の深度情報と物体の表面方向を予測できます。
技術的な観点から見ると、Sapiensはいくつかの高度な手法を採用しています。まず、3億枚の画像を含む大規模なデータセットに基づいて事前トレーニングされており、これによりモデルは強力な汎化能力を獲得しています。次に、Sapiensはビジョントランスフォーマーアーキテクチャを採用しており、高解像度の入力処理と詳細な推論が可能です。さらに、マスキング自己符号化器による事前トレーニングとマルチタスク学習により、Sapiensは堅牢な特徴表現を学習し、複数の複雑なタスクを同時に処理できます。
Sapiensの応用範囲は非常に広いです。ビデオ監視や仮想現実の分野では、人体動作や姿勢をリアルタイムで分析し、モーションキャプチャやヒューマンコンピュータインタラクションをサポートします。医療分野では、正確な姿勢と部位の分析を通じて、医療従事者が患者の監視やリハビリテーション指導を行う際に役立ちます。ソーシャルメディアプラットフォームでは、ユーザーがアップロードした画像を分析し、より豊かなインタラクティブな体験を提供できます。仮想現実と拡張現実の分野では、よりリアルな人間のイメージを作成し、ユーザーの没入感を高めるのに役立ちます。
実験結果によると、Sapiensは複数のタスクにおいて既存の最先端手法を凌駕する性能を示しました。全身、顔、手、足のキーポイント検出、ボディパーツセグメンテーション、深度推定、サーフェスノーマル予測の各タスクにおいて、Sapiensは高い精度と一貫性を示しました。
プロジェクトアドレス:https://about.meta.com/realitylabs/codecavatars/sapiens
論文アドレス:https://arxiv.org/pdf/2408.12569