EasyContext
EasyContext demonstriert, wie sich bestehende Technologien kombinieren lassen, um Sprachmodelle mit einem Kontext von 700.000 und 1.000.000 Tokens zu trainieren.
Normales ProduktProgrammierungSprachmodellKontextlänge
EasyContext ist ein Open-Source-Projekt, das darauf abzielt, mithilfe verschiedener Techniken das Trainieren von Sprachmodellen mit einer Kontextlänge von bis zu einer Million Tokens auf herkömmlicher Hardware zu ermöglichen. Wichtige eingesetzte Technologien sind sequentielle Parallelität, Deepspeed Zero3 Offloading, Flash-Attention und Aktivierungs-Checkpointing. Das Projekt stellt keine neuen Innovationen vor, sondern zeigt, wie sich bestehende Techniken kombinieren lassen, um dieses Ziel zu erreichen. Erfolgreich trainiert wurden die Modelle Llama-2-7B und Llama-2-13B, die auf 8 bzw. 16 A100 GPUs eine Kontextlänge von 700.000 bzw. 1.000.000 Tokens erreichten.
EasyContext Neueste Verkehrssituation
Monatliche Gesamtbesuche
474564576
Absprungrate
36.20%
Durchschnittliche Seiten pro Besuch
6.1
Durchschnittliche Besuchsdauer
00:06:34