Hier soir, Meta a annoncé la publication en open source de son dernier grand modèle linguistique, Llama 3.1 405B. Cette annonce majeure marque l'aboutissement d'une année de préparation minutieuse, de la planification du projet à l'examen final, le modèle Llama 3 étant enfin accessible au public.
Llama 3.1 405B est un modèle d'utilisation multilingue doté de 1280 milliards de paramètres. Pré-entraîné sur une longueur de contexte de 8K, il a ensuite été entraîné de manière continue sur une longueur de contexte de 128K. Selon Meta, ce modèle rivalise avec le GPT-4, leader du secteur, sur plusieurs tâches.
Par rapport aux modèles Llama précédents, Meta a apporté plusieurs améliorations :
- Amélioration du prétraitement et de la curation des données de pré-entraînement
- Amélioration de la qualité et des méthodes de sélection des données post-entraînement
Le pré-entraînement du modèle 405B a représenté un défi de taille, impliquant 15 600 milliards de jetons et 3,8 x 10^25 opérations en virgule flottante. Pour ce faire, Meta a optimisé l'architecture d'entraînement entière et a utilisé plus de 16 000 GPU H100.
Pour permettre l'inférence à grande échelle du modèle 405B, Meta l'a quantifié de 16 bits (BF16) à 8 bits (FP8), réduisant ainsi considérablement les besoins en calcul et permettant l'exécution du modèle sur un seul nœud de serveur.
De plus, Meta a utilisé le modèle 405B pour améliorer la qualité post-entraînement des modèles 70B et 8B. Au cours de la phase post-entraînement, l'équipe a affiné le modèle de conversation grâce à plusieurs cycles d'alignement, notamment l'ajustement fin supervisé (SFT), l'échantillonnage de rejet et l'optimisation des préférences directes. Il est à noter que la plupart des échantillons SFT ont été générés à l'aide de données synthétiques.
Llama 3 intègre également des fonctionnalités image, vidéo et audio, utilisant une approche combinée pour permettre au modèle de reconnaître les images et les vidéos, et de prendre en charge l'interaction vocale. Cependant, ces fonctionnalités sont encore en cours de développement et n'ont pas encore été officiellement lancées.
Meta a également mis à jour sa licence, permettant aux développeurs d'utiliser la sortie des modèles Llama pour améliorer d'autres modèles.
Les chercheurs de Meta déclarent : « Travailler à la pointe de l'IA avec les meilleurs talents du secteur et publier nos résultats de recherche de manière ouverte et transparente est incroyablement stimulant. Nous avons hâte de voir les innovations issues des modèles open source et le potentiel futur des modèles de la série Llama ! »
Cette initiative open source apportera sans aucun doute de nouvelles opportunités et de nouveaux défis au domaine de l'IA, stimulant le développement futur des technologies des grands modèles linguistiques.