Salesforce、xGen-MMというオープンソースのマルチモーダルAIモデルを発表、ビジュアル理解を支援

Salesforceは、xGen-MMというオープンソースのマルチモーダルAIモデルを発表しました。このモデルは、テキストや画像など複数のデータタイプを同時に理解し生成することができ、AI研究と応用方法を根本的に変える可能性があります。

Salesforce AI研究チームは、arXivでxGen-MMフレームワークの詳細を説明した論文を発表しました。このフレームワークには、事前学習済みモデルだけでなく、データセットと微調整コードも含まれています。特筆すべきは、この最大規模のモデルが40億個のパラメータを持ち、複数のベンチマークテストで優れた性能を示し、同種のオープンソースモデルに劣らない点です。

今回のオープンソース化は、多くのテクノロジー大手が高性能AIモデルを非公開にする傾向とは対照的です。Salesforceは、モデルとデータセットを公開することで、より広範な研究開発を促進したいと考えています。これは、より多くの研究者や開発者がマルチモーダルAI技術の発展に参加できる機会を作るためでもあります。

xGen-MMの大きな革新は、「インターリーブデータ」を処理できる点にあります。つまり、複数の画像とテキストを同時に処理できます。この能力により、モデルは複数の画像に関する質問に同時に答えるなど、より複雑なタスクを実行できます。これは非常に画期的で、医療診断や自動運転などの分野で役立つ可能性があります。

今回の発表には、基本的な事前学習済みモデル、指示に従うように微調整されたモデル、有害な出力を削減することを目的とした「安全な微調整」モデルなど、さまざまな最適化バージョンのモデルが含まれています。このような多様な選択肢は、AIコミュニティにおける能力と安全倫理のバランスへの関心の高まりを反映しています。

しかし、強力なモデルの発表に伴い、より高度なAIシステムの潜在的なリスクと社会への影響に関する議論も巻き起こっています。Salesforceは安全な微調整を行ってリスクを軽減していますが、イノベーションと安全性のバランスをどのように取るかは、依然として重要な課題です。

Salesforceによる今回のオープンソース化は、研究者にとって、これらの強力な技術をより深く理解し、改善するための貴重なツールを提供します。同時に、AI分野の透明性において新たな基準を打ち立て、他のテクノロジー大手による研究の公開を促進する可能性があります。

モデルへのアクセス:https://huggingface.co/collections/Salesforce/xgen-mm-1-models-662971d6cecbf3a7f80ecc2e

要点:
🌟 xGen-MMは、Salesforceが発表したオープンソースのマルチモーダルAIモデルで、テキストと画像の包括的な理解と生成をサポートします。
🔍 インターリーブデータ処理能力を備え、複数の画像に関する質問に同時に回答でき、幅広い応用が期待できます。
🔒 安全性と倫理問題に配慮した複数の最適化バージョンが含まれており、研究者にとって豊富なリソースとなります。