EasyContext
EasyContext demonstra como treinar modelos de linguagem com contexto de 700K e 1M tokens, combinando tecnologias existentes.
Produto ComumProgramaçãoModelo de linguagemComprimento de contexto
EasyContext é um projeto de código aberto que visa alcançar um comprimento de contexto de até 1 milhão de tokens para modelos de linguagem treinados em hardware comum, combinando várias técnicas. As tecnologias principais incluem paralelismo de sequência, Deepspeed zero3 offload, atenção Flash e checkpoint de ativação. O projeto não apresenta inovações, mas sim demonstra como combinar tecnologias existentes para alcançar esse objetivo. Modelos Llama-2-7B e Llama-2-13B foram treinados com sucesso, alcançando comprimentos de contexto de 700K e 1M tokens em 8 e 16 GPUs A100, respectivamente.
EasyContext Situação do Tráfego Mais Recente
Total de Visitas Mensais
474564576
Taxa de Rejeição
36.20%
Média de Páginas por Visita
6.1
Duração Média da Visita
00:06:34