Le modèle linguistique Doubao affirme avoir rattrapé GPT-4, révélant pour la première fois ses capacités de traitement de 3 millions de longs textes

AIbase基地

Publié leActualités IA · 3 minutes de lecture · Dec 31, 2024

498

Le rapport d'avancement technologique 2024 de Doubao, le grand modèle linguistique de ByteDance, a été publié aujourd'hui. Il révèle que sa dernière version, Doubao-pro-1215, a atteint des performances globales comparables à celles de GPT-4, et même surpassé ce dernier dans certains domaines spécialisés. Cette avancée marque l'entrée officielle des technologies chinoises de grands modèles linguistiques dans le premier rang mondial.

Depuis ses débuts en mai dernier, Doubao a amélioré ses capacités de 32% en seulement 7 mois. Selon les informations officielles, grâce à l'optimisation du traitement de données massives et à une architecture de modèle innovante, incluant l'amélioration de la parcimonie du modèle et l'intégration de l'apprentissage par renforcement, Doubao a réalisé des progrès significatifs en termes de précision de compréhension et de qualité de génération. Notamment, dans des scénarios complexes comme les mathématiques et les connaissances spécialisées, ses performances dépassent même celles de GPT-4, pour un prix huit fois inférieur.

Doubao, Grace, ByteDance

Il est important de noter que Doubao a dévoilé pour la première fois sa capacité à traiter des textes extrêmement longs, jusqu'à 3 millions de caractères. Cela signifie qu'il peut traiter simultanément un volume de données équivalent à « des centaines » de rapports académiques. Grâce à l'utilisation d'algorithmes de corrélation de données contextuelles tels que STRING, ainsi qu'à des solutions optimisées de sparsification et de distribution, Doubao maîtrise le traitement de millions de jetons en moins de 15 secondes, améliorant considérablement l'efficacité du traitement des connaissances externes massives.

Cette percée technologique non seulement démontre le développement rapide de l'IA chinoise, mais laisse également présager une accélération de l'adoption des grands modèles linguistiques grâce à un meilleur rapport qualité-prix.

Li Yanhong discute l'entraînement des prochains grands modèles : la priorité doit être accordée aux progrès technologiques et à la réduction des coûts

Le 11 février 2025, lors du sommet des gouvernements mondiaux (World Governments Summit) à Dubaï, aux Émirats arabes unis, Li Yanhong, fondateur de Baidu, a eu un échange approfondi avec Omar Sultan Al Olama, ministre de l'IA des Émirats arabes unis, pour discuter des tendances futures du développement de l'infrastructure IA. Au cours de la conversation, M. Al Olama a mentionné l'attention mondiale suscitée récemment par DeepSeek, entraînant de fortes fluctuations des cours des actions de plusieurs grands fabricants de puces et de bourses, et a interrogé Li Yanhong sur sa vision de l'avenir des centres de données et de l'infrastructure IA.

OpenAI lance GPT-4O-Audio-Preview : la voix peut désormais "comprendre" les émotions !

OpenAI révolutionne une fois de plus le secteur de l'intelligence artificielle avec le lancement de son nouveau modèle gpt-4o-audio-preview. Ce modèle fait preuve de capacités étonnantes en matière de génération et d'analyse vocale, ouvrant de nouvelles perspectives pour l'interaction homme-machine. Découvrons ensemble les caractéristiques et les applications potentielles de ce modèle innovant. Les fonctionnalités principales de gpt-4o-audio-preview se répartissent en trois axes : premièrement, il est capable de générer des réponses vocales naturelles et fluides à partir de texte, ce qui est idéal pour les assistants vocaux et les services clients virtuels.

Nouveau modèle OpenAI gpt-4o-2024-08-06 et gpt-4o-mini prennent en charge la sortie structurée

OpenAI a ajouté une fonctionnalité de sortie structurée à son API, garantissant que la sortie générée est parfaitement conforme à la structure JSON prédéfinie, améliorant ainsi considérablement la fiabilité de l'API et la précision des applications. Cette fonctionnalité définit non seulement la structure du JSON, mais garantit également l'exactitude de la sortie. Simultanément, les prix ont été réduits : le coût d'entrée a été diminué de moitié et le coût de sortie de 1/3. L'introduction de la sortie structurée a résolu les limitations du schéma JSON en matière de garantie de conformité de la sortie à une structure spécifique, améliorant considérablement les performances du modèle en matière de sortie structurée. Grâce à des innovations techniques, telles que la limitation...

OpenAI lance le nouveau modèle gpt-4o-64k-output-alpha : l'API GPT-4o prend désormais en charge des sorties jusqu'à 64K

Le point fort du nouveau modèle gpt-4o-64k-output-alpha d'OpenAI est sa capacité à générer des sorties jusqu'à 64K tokens en une seule fois. Idéal pour créer du contenu riche et détaillé, il répond aux besoins de la rédaction, de la programmation et de l'analyse de données complexes. Cependant, cette fonctionnalité augmente le prix de l'API : 18 $ par million de tokens en sortie, contre 6 $ par million de tokens en entrée. Cette mesure vise à compenser les coûts de calcul élevés et à encourager une utilisation responsable de cet outil puissant. Ce modèle est une avancée majeure pour les domaines de la création et de la recherche.