OpenProteinSet:オープンソースのタンパク質データセット

ハーバード大学やコロンビア大学などの研究機関が、1600万個のタンパク質多重配列アラインメント(MSA)と関連データを含む、OpenProteinSetというオープンソースのデータセットを発表しました。

このデータセットの公開により、DeepMindのAlphaFold 2のトレーニングデータが非公開であった問題が解決され、バイオインフォマティクスやタンパク質機械学習の分野に重要な貢献をもたらします。AlphaFold 2は、タンパク質構造予測の精度においてこの分野をリードしていますが、そのデータの非公開は他の研究者の進歩を妨げていました。

OpenProteinSetは、すべてのタンパク質データベースのタンパク質と様々なUniProtクラスタのデータを含んでおり、幅広いAIモデルのトレーニングに使用できます。この資源は、生物学、医薬品開発などの研究分野にとって非常に重要であり、関連研究の発展を促進するでしょう。