DCLM-7B

7亿参数的语言模型,展示数据整理技术的有效性。

优质新品编程语言模型Transformer
DCLM-Baseline-7B是一个7亿参数的语言模型,由DataComp for Language Models (DCLM)团队开发,主要使用英语。该模型旨在通过系统化的数据整理技术来提高语言模型的性能。模型训练使用了PyTorch与OpenLM框架,优化器为AdamW,学习率为2e-3,权重衰减为0.05,批次大小为2048序列,序列长度为2048个token,总训练token数达到了2.5T。模型训练硬件使用了H100 GPU。
打开网站

DCLM-7B 最新流量情况

月总访问量

17104189

跳出率

44.67%

平均页面访问数

5.5

平均访问时长

00:05:49

DCLM-7B 访问量趋势

DCLM-7B 访问地理位置分布

DCLM-7B 流量来源

DCLM-7B 替代品