EasyContext
EasyContext演示了如何利用现有技术组合,来训练700K和1M上下文的语言模型。
普通产品编程语言模型上下文长度
EasyContext是一个开源项目,旨在通过结合多种技术手段,实现使用普通硬件训练语言模型的上下文长度达到100万词元。主要采用的技术包括序列并行、Deepspeed zero3离载、Flash注意力以及激活checkpoint等。该项目不提出新的创新点,而是展示如何组合现有的技术手段来实现这一目标。已成功训练出Llama-2-7B和Llama-2-13B两个模型,分别在8块A100和16块A100上实现了700K和1M词元的上下文长度。
EasyContext 最新流量情况
月总访问量
515580771
跳出率
37.20%
平均页面访问数
5.8
平均访问时长
00:06:42