バイオテクノロジー分野において、人工知能の応用はタンパク質の発見と設計を急速に推進しています。最近、カリフォルニア大学バークレー校(UC Berkeley)とカリフォルニア工科大学(Caltech)の研究チームは、テキスト記述を利用してタンパク質設計を支援することを目的とした、ProteinDTという新しい多様なモダリティフレームワークを共同開発しました。この革新的な手法は、タンパク質の配列と構造情報だけでなく、テキスト形式で存在する大量の生物学的知識も統合し、タンパク質設計の新たな章を開きました。
ProteinDTのワークフローは3つの主要なステップに分かれています。まず、研究チームは「対照的言語-タンパク質事前学習」(ProteinCLAP)手法を用いて、テキスト記述とタンパク質配列をアラインメントします。このプロセスは、UniProtデータベースからの41.1万個のテキスト-タンパク質ペアを利用し、対照学習技術を採用することで、異なるモダリティ間の効果的な融合を保証します。
画像出典:画像はAIによって生成され、画像ライセンスサービスプロバイダーMidjourneyから提供されています。
次に、ProteinDTの「ファシリテーター」モデルは、テキストからタンパク質配列の表現を生成し、ガウス分布で条件付き分布を推定することで、正確な生成を実現します。最後のステップはデコーダーであり、これは条件付き生成モデルとして、前のステップの表現情報に基づいて最終的なタンパク質配列を生成します。
このフレームワークの有効性を検証するために、研究チームは3つの下流タスクを設計しました。まず、テキストからタンパク質を生成するタスクでは、目的のタンパク質特性のテキスト記述を入力することで、ProteinDTは関連するタンパク質配列を生成でき、その精度は90%を超えます。次に、ゼロショットテキスト誘導タンパク質編集タスクでは、2つの方法で既存の配列を編集し、潜在空間補間法と潜在最適化法のいずれも、テキスト情報を効果的に注入してタンパク質生成の質を向上させることができます。最後に、チームはProteinCLAPの学習表現の堅牢性と汎化能力を評価し、他の6つの最先端の方法と比較して、ProteinDTは複数のベンチマークテストで優れた性能を示しました。
この研究は、タンパク質設計に新たな道を切り開くだけでなく、テキストデータと生体分子設計の統合の可能性を大きく示しており、将来的には生物医学や医薬品開発の進歩をさらに促進する可能性があります。