Harvard et Columbia publient 16 millions de séquences protéiques open source, résolvant le problème des données privées d'entraînement d'AlphaFold 2 !

OpenProteinSet : Un ensemble de données open source pour la recherche sur les protéines

Des institutions de recherche telles que l'Université Harvard et l'Université Columbia ont publié un ensemble de données open source appelé OpenProteinSet, contenant 16 millions d'alignements multiples de séquences de protéines (MSA) et des données associées. Ce lancement répond au problème des données privées utilisées pour entraîner AlphaFold 2 de DeepMind, offrant un soutien important à la bio-informatique et à l'apprentissage automatique des protéines.

La précision de la prédiction de la structure des protéines d'AlphaFold 2 a révolutionné le domaine, mais le caractère privé de ses données a freiné les progrès d'autres chercheurs. OpenProteinSet inclut les protéines de toutes les bases de données protéiques et des données de divers clusters UniProt, pouvant être utilisé pour l'entraînement d'une large gamme de modèles d'IA.

Cette ressource est d'une importance capitale pour la recherche en biologie, le développement de médicaments et d'autres domaines, et stimulera le progrès de la recherche dans ces secteurs.

Actualités IA

Harvard et Columbia publient 16 millions de séquences protéiques open source, résolvant le problème des données privées d'entraînement d'AlphaFold 2 !

新智元