Dans l'émission de podcast Latent Space, Thomas Scialom, scientifique chez Meta, nous a dévoilé les secrets du développement de Llama 3.1 et a levé un coin du voile sur le mystérieux Llama 4.

La création de Llama 3.1 représente un équilibre parfait entre l'échelle des paramètres, le temps d'entraînement et les limites matérielles. Ses 405 milliards de paramètres ne sont pas un choix arbitraire, mais un véritable défi lancé à GPT-4o par Meta. Bien que les contraintes matérielles empêchent Llama 3.1 de fonctionner sur tous les ordinateurs personnels, la puissance de la communauté open source rend tout possible.

Durant le développement de Llama 3.1, Scialom et son équipe ont réévalué la loi d'échelle (Scaling Law). Ils ont découvert que l'échelle du modèle est certes essentielle, mais que le volume total des données d'entraînement l'est encore plus. Llama 3.1 a privilégié l'augmentation du nombre de jetons d'entraînement, même si cela nécessitait une puissance de calcul accrue.

image.png

L'architecture de Llama 3.1 n'a pas subi de changements radicaux, mais Meta a mis le paquet sur l'échelle et la qualité des données. Un océan de 15 téraoctets de jetons a permis à Llama 3.1 de faire un bond qualitatif en termes de profondeur et d'étendue des connaissances.

Concernant le choix des données, Scialom est convaincu que le texte indésirable sur internet est trop abondant, et que les vraies pépites sont les données synthétiques. L'entraînement ultérieur de Llama 3.1 n'a utilisé aucune réponse écrite par des humains, mais s'est entièrement appuyé sur des données synthétiques générées par Llama 2.

L'évaluation des modèles est un défi permanent dans le domaine de l'IA. Pour Llama 3.1, plusieurs méthodes ont été testées pour l'évaluation et l'amélioration, notamment les modèles de récompense et des tests de référence diversifiés. Le véritable défi réside cependant dans la recherche de prompts capables de mettre à l'épreuve les modèles les plus performants.

Meta a commencé l'entraînement de Llama 4 en juin, et cette fois, l'accent est mis sur la technologie des agents. Le développement d'outils agents tels que Toolformer préfigure de nouvelles explorations de Meta dans le domaine de l'IA.

L'open source de Llama 3.1 est non seulement une tentative audacieuse de Meta, mais aussi une réflexion profonde sur l'avenir de l'IA. Avec le lancement de Llama 4, nous avons de bonnes raisons de croire que Meta continuera à être un leader dans le domaine de l'IA. Attendons avec impatience de voir comment Llama 4 et la technologie des agents redéfiniront l'avenir de l'IA.