DeepSeek-V3 : le nouveau modèle de quantification de Huanfang, des performances comparables à GPT-4 à un coût de formation révolutionnairement bas

AIbase基地

Publié leActualités IA · 4 minutes de lecture · Dec 27, 2024

1.2k

Le 26 décembre au soir, QuantEase a publié DeepSeek-V3, sa nouvelle génération de grands modèles linguistiques, marquant une avancée technologique remarquable. Ce modèle, basé sur une architecture MoE (Mixture of Experts), rivalise en termes de performances avec les meilleurs modèles propriétaires, tout en se distinguant par son faible coût et son efficacité, suscitant ainsi un vif intérêt de la part du secteur.

En termes de paramètres clés, DeepSeek-V3 possède 671 milliards de paramètres, dont 37 milliards de paramètres d'activation, et a été pré-entraîné sur 14,8 billions de jetons. Par rapport à son prédécesseur, la vitesse de génération du nouveau modèle est trois fois plus rapide, traitant 60 jetons par seconde, améliorant ainsi considérablement l'efficacité des applications concrètes.

En matière d'évaluation des performances, DeepSeek-V3 a démontré des capacités exceptionnelles. Il surpasse non seulement les modèles open source renommés tels que Qwen2.5-72B et Llama-3.1-405B, mais se positionne également au même niveau que GPT-4 et Claude-3.5-Sonnet lors de nombreux tests. Il a notamment obtenu des résultats exceptionnels en mathématiques, surpassant tous les modèles open source et propriétaires existants.

L'avantage le plus remarquable de DeepSeek-V3 réside dans son faible coût. Selon l'article scientifique open source, en calculant à 2 dollars par heure de GPU, le coût total d'entraînement du modèle s'élève à seulement 5,576 millions de dollars. Ce résultat révolutionnaire est dû à l'optimisation synergique des algorithmes, du framework et du matériel. Le co-fondateur d'OpenAI, Karpathy, a salué cette performance, soulignant que DeepSeek-V3 a atteint des performances supérieures à Llama3 en utilisant seulement 2,8 millions d'heures de GPU, soit une amélioration de l'efficacité de calcul d'environ 11 fois.

Sur le plan commercial, bien que le prix de l'API de DeepSeek-V3 ait légèrement augmenté par rapport à la génération précédente, il reste très compétitif. Le nouveau tarif est de 0,5 à 2 yuans par million de jetons d'entrée et de 8 yuans par million de jetons de sortie, soit un coût total d'environ 10 yuans chinois. À titre de comparaison, un service équivalent avec GPT-4 coûte environ 140 yuans chinois, soit une différence de prix considérable.

En tant que grand modèle entièrement open source, la publication de DeepSeek-V3 témoigne non seulement des progrès de la technologie IA chinoise, mais offre également aux développeurs et aux entreprises une solution IA performante et économique.

L'efficacité des grands modèles explose : la technologie COMET de ByteDance est open source, accélérant la vitesse de 1,7 fois

L'équipe du modèle de langage large Doubao de ByteDance a récemment annoncé avoir réussi à surmonter les goulots d'étranglement clés de l'architecture du modèle d'expert mixte (MoE) et a publié en open source une technologie d'optimisation majeure nommée COMET. Cette technologie améliore considérablement l'efficacité de l'entraînement des grands modèles, permettant une augmentation de l'efficacité allant jusqu'à 1,7 fois et réduisant efficacement les coûts de formation de 40 %. Remarque sur l'image : l'image a été générée par l'IA, le fournisseur de services d'autorisation d'image étant Midjourney. COMET a déjà été appliquée à l'entraînement en cluster de plusieurs milliers de cartes chez ByteDance, permettant des économies de plusieurs millions de GP.

DeepSeek-AI publie la série DeepSeek-VL2 : modèles à 3 B, 16 B et 27 B de paramètres

Avec le développement rapide de l'intelligence artificielle, l'intégration des capacités visuelles et linguistiques a conduit à des avancées révolutionnaires dans les modèles linguistiques visuels (VLMs). Ces modèles sont conçus pour traiter et comprendre simultanément les données visuelles et textuelles, et sont largement utilisés dans des scénarios tels que la description d'images, la question-réponse visuelle, la reconnaissance optique de caractères et l'analyse de contenu multimodale. Les VLMs jouent un rôle important dans le développement de systèmes autonomes, l'amélioration de l'interaction homme-machine et la création d'outils efficaces de traitement de documents, réussissant à combler le fossé entre ces deux modalités de données. Cependant, le traitement des données visuelles haute résolution et des entrées textuelles diversifiées...

OPPO réalise le premier déploiement de MoE sur un appareil mobile, améliorant l'efficacité du traitement de l'IA de 40%

OPPO a annoncé aujourd'hui avoir réussi le premier déploiement mondial d'une architecture de modèle expert mixte (MoE) sur un appareil mobile. Cette avancée révolutionnaire améliore considérablement l'efficacité du traitement de l'IA, ouvrant de nouvelles voies pour le développement de la technologie d'IA sur les appareils mobiles et jetant les bases d'une intégration approfondie entre l'IA et le matériel mobile. Avec le développement rapide de la technologie de l'IA, de plus en plus de tâches d'IA doivent être effectuées sur les appareils mobiles. Cependant, les grands modèles d'IA nécessitent souvent une puissance de calcul importante, ce qui représente un défi majeur pour les appareils mobiles aux ressources matérielles limitées. Pour surmonter cette limitation,

Actualités IA

DeepSeek-V3 : le nouveau modèle de quantification de Huanfang, des performances comparables à GPT-4 à un coût de formation révolutionnairement bas

AIbase基地

Recommandations d'actualités IA connexes

L'efficacité des grands modèles explose : la technologie COMET de ByteDance est open source, accélérant la vitesse de 1,7 fois

DeepSeek-AI publie la série DeepSeek-VL2 : modèles à 3 B, 16 B et 27 B de paramètres

OPPO réalise le premier déploiement de MoE sur un appareil mobile, améliorant l'efficacité du traitement de l'IA de 40%