A Together AI lançou o conjunto de dados RedPajama v2, contendo 30 trilhões de tokens, para treinamento de modelos de linguagem grandes. Este conjunto de dados visa apoiar o desenvolvimento bem-sucedido de modelos de linguagem grandes, fornecendo recursos de dados de alta qualidade.
O conjunto de dados é derivado do CommonCrawl e de outros dados da web pública, contendo mais de 40 clusters de anotações de qualidade e desduplicação. O conjunto de dados RedPajama v2 passou por um processamento mínimo, mantendo os dados originais para permitir o processamento posterior pelos criadores de modelos.
Esta iniciativa fornecerá mais recursos para o desenvolvimento e pesquisa de modelos de linguagem, esperando-se que impulsione o avanço adicional no campo da IA.