Together AI最近发布了RedPajama v2,这是一个包含30万亿token的庞大在线数据集,专为大型语言模型的培训而设计。高质量数据对于像Llama、Mistral、Falcon、MPT和RedPajama等大型开放式语言模型的成功至关重要。RedPajama-V2的构建强调了对CommonCrawl的覆盖,包括原始数据、高质量注释和去重集群,为语言模型的培训提供了强有力的基础。这一数据集的发布对于AI研究和应用领域具有重要意义,为开发更强大的语言模型提供了支持和基础,有望推动AI领域的进一步发展。