Petit mais puissant ! Une équipe de 10 personnes crée le premier modèle Llama 3.1 405B affiné

Une petite équipe de seulement 10 personnes ose défier le géant technologique Meta : une véritable histoire de David contre Goliath !

Cette start-up, nommée Nous Research, n'est pas une inconnue. Son dernier modèle, Hermes3, est un modèle de 405B paramètres affiné à partir de Llama3.1. Malgré sa petite taille, l'équipe a déjà affiné plusieurs modèles comme Mistral, Yi et Llama, enregistrant plus de 33 millions de téléchargements. Une véritable machine à succès dans le monde de l'IA !

L'arrivée d'Hermes3 est comme une bouffée d'oxygène pour le monde de l'IA. Même après quantification FP8, ses performances restent impressionnantes. Cette optimisation réduit considérablement les besoins en VRAM et en espace disque, permettant à Hermes3 de fonctionner sur un seul nœud, une véritable aubaine pour les développeurs !

En termes de capacités conversationnelles, Hermes3 est un véritable couteau suisse. Mémoire à long terme, dialogues multi-tours, jeux de rôle, monologue interne : il excelle dans tous les domaines. Grâce à la fenêtre contextuelle de 128 K de Llama3.1, Hermes3 maintient une cohérence conversationnelle digne d'un diplomate chevronné.

Mais les compétences d'Hermes3 vont bien au-delà. Il présente des capacités avancées dépassant les modèles linguistiques traditionnels, capable de comprendre et d'évaluer finement la qualité du texte généré. Il est non seulement capable de parler, mais aussi d'agir en critique littéraire rigoureux !

Plus impressionnant encore, Hermes3 intègre plusieurs capacités d'agents intelligents, notamment la sortie structurée, la production d'étapes intermédiaires et la génération de monologues internes pour une prise de décision transparente. C'est comme si l'IA avait un « cerveau transparent », nous permettant d'observer son processus de pensée.

L'entraînement d'Hermes3 a été une véritable épreuve de force pour l'IA. Il a subi un apprentissage supervisé (SFT) et une optimisation directe des préférences (DPO). L'équipe a passé 5 mois à sélectionner et à construire l'ensemble de données SFT, un dévouement impressionnant.

Nous Research, un groupe de recherche appliquée privé fondé en 2023 et basé à New York, est un véritable « barbare conquérant » du monde de l'IA. Convaincu de la puissance de l'open source, il défie les limites de l'innovation imposées par les technologies propriétaires. Son slogan est clair et percutant : « Nous remettons en question l'hypothèse selon laquelle les technologies propriétaires domineront toujours l'innovation, et proposons en retour du code open source puissant. »

En un peu plus d'un an, Nous Research a publié 5 ensembles de données et 89 modèles. Une productivité qui semble démontrer que la taille n'est pas le facteur déterminant, mais bien la compétence.

Adresse de l'article : https://nousresearch.com/wp-content/uploads/2024/08/Hermes-3-Technical-Report.pdf

Présentation officielle : https://nousresearch.com/freedom-at-the-frontier-hermes-3/

Actualités IA

Petit mais puissant ! Une équipe de 10 personnes crée le premier modèle Llama 3.1 405B affiné

AIbase基地