Conjunto de Proteínas Aberto

Instituições de pesquisa como a Universidade de Harvard e a Universidade de Columbia lançaram um conjunto de dados de código aberto chamado OpenProteinSet, contendo 16 milhões de alinhamentos múltiplos de sequências de proteínas (MSA) e dados relacionados. O lançamento deste conjunto de dados resolve o problema dos dados de treinamento proprietários do AlphaFold 2 do DeepMind, fornecendo um suporte importante para a bioinformática e o aprendizado de máquina de proteínas.

A precisão da previsão da estrutura de proteínas do AlphaFold 2 lidera o campo, mas seus dados proprietários limitaram o progresso de outros pesquisadores. O OpenProteinSet inclui proteínas de todos os bancos de dados de proteínas e dados de vários clusters UniProt, podendo ser usado para o treinamento de amplos modelos de IA. Este recurso é de grande importância para pesquisas em biologia, desenvolvimento de medicamentos e outros campos, impulsionando o desenvolvimento de pesquisas relevantes.