EasyContext
EasyContext demuestra cómo entrenar modelos de lenguaje con contextos de 700K y 1M tokens utilizando una combinación de tecnologías existentes.
Producto ComúnProgramaciónModelo de lenguajeLongitud de contexto
EasyContext es un proyecto de código abierto que busca lograr longitudes de contexto de hasta un millón de tokens en el entrenamiento de modelos de lenguaje utilizando hardware común, mediante la combinación de varias técnicas. Las tecnologías principales empleadas incluyen paralelismo de secuencia, Deepspeed zero3 offloading, atención Flash y checkpoints de activación. Este proyecto no presenta innovaciones novedosas, sino que muestra cómo combinar técnicas existentes para lograr este objetivo. Se han entrenado con éxito dos modelos, Llama-2-7B y Llama-2-13B, alcanzando longitudes de contexto de 700K y 1M tokens respectivamente en 8 y 16 GPUs A100.
EasyContext Situación del tráfico más reciente
Total de visitas mensuales
474564576
Tasa de rebote
36.20%
Páginas promedio por visita
6.1
Duración promedio de la visita
00:06:34