EasyContext
EasyContext démontre comment combiner des technologies existantes pour entraîner des modèles linguistiques avec un contexte de 700 000 et 1 000 000 de jetons.
Produit OrdinaireProgrammationModèle linguistiqueLongueur de contexte
EasyContext est un projet open source visant à atteindre une longueur de contexte de 1 000 000 de jetons lors de l'entraînement de modèles linguistiques sur du matériel ordinaire, en combinant plusieurs techniques. Les technologies principales utilisées incluent le parallélisme de séquences, le déchargement Deepspeed zero3, l'attention Flash et les checkpoints d'activation. Ce projet ne propose pas d'innovation révolutionnaire, mais montre comment combiner des techniques existantes pour atteindre cet objectif. Des modèles Llama-2-7B et Llama-2-13B ont été entraînés avec succès, atteignant respectivement des longueurs de contexte de 700 000 et 1 000 000 de jetons sur 8 et 16 cartes A100.
EasyContext Dernière situation du trafic
Nombre total de visites mensuelles
474564576
Taux de rebond
36.20%
Nombre moyen de pages par visite
6.1
Durée moyenne de la visite
00:06:34