Aujourd'hui, Doubao, le grand modèle linguistique, a publié officiellement les 8 moments clés de son développement ! Depuis ses débuts le 15 mai 2024, Doubao a connu une croissance fulgurante en 230 jours. De ses premiers balbutiements à l’exploration d’un monde inconnu, en passant par la création de rêves fantastiques pour les créateurs, chaque étape a été jalonnée de défis et de réussites.

1. Révolution de la reconnaissance vocale et de l’expression émotionnelle

En juillet, Doubao a réalisé une percée majeure dans le domaine de la reconnaissance vocale : il peut comprendre des conversations mêlant plus de 20 dialectes et réfléchir en même temps qu’il écoute. De plus, il a appris à exprimer des émotions dans ses conversations, à intervenir naturellement et même à conserver les hésitations et les accents caractéristiques de la parole humaine. Cette prouesse technologique repose sur les modèles Seed-ASR (reconnaissance vocale) et Seed-TTS (synthèse vocale), qui intègrent des données et des chaînes de raisonnement plus vastes, leur conférant une capacité de généralisation exceptionnelle.

QQ20241230-140106.png

2. La naissance d’un groupe de musique IA

En septembre, Doubao a innové en créant le concept de « groupe de musique IA ». De la composition à l’interprétation, en passant par le chant, Doubao maîtrise plus de 10 compétences de création musicale et peut apporter une inspiration inattendue à la création musicale. La technologie sous-jacente est le framework Seed-Music, qui combine les avantages des modèles linguistiques et des modèles de diffusion, offrant un cadre général pour la génération musicale avec une grande capacité de contrôle éditorial.

QQ20241230-140155.png

3. Génération vidéo précise et contrôle de la caméra

Le même mois, Doubao a repoussé les limites de la création en générant des vidéos haute définition multi-sujets à partir d’instructions complexes et en contrôlant précisément l’angle de caméra. Grâce aux modèles de génération vidéo PixelDance et Seaweed, Doubao peut générer des vidéos et des effets sonores de haute qualité de manière synchronisée, offrant aux créateurs une expérience visuelle plus réaliste et onirique.

4. Amélioration des capacités d’édition et de création d’images

En novembre, Doubao a maîtrisé la « retouche photo en une phrase » et la « génération d’affiches en un clic ». Les utilisateurs peuvent effectuer des retouches d’images et générer du texte grâce à de simples instructions textuelles. Grâce au modèle de génération d’images SeedEdit, constamment amélioré, Doubao peut représenter des scènes complexes avec précision et offre une édition d’images pilotée par le langage naturel.

5. Progrès spectaculaire en programmation

En décembre, les capacités de programmation de Doubao ont été considérablement améliorées, faisant de lui un programmeur IA et un analyste de données. Grâce à Doubao MarsCode, les utilisateurs peuvent facilement écrire du code, traiter des données et réaliser des analyses de données visuelles. Le modèle de code de Doubao, Doubao-coder, prend en charge 16 langages de programmation et répond aux besoins de développement front-end et back-end, ainsi qu’aux besoins de la programmation full-stack, y compris le machine learning.

6. Capacité extrême de compréhension et de traitement de texte

Doubao a également dépassé les limites de la fenêtre contextuelle, atteignant 3 millions de caractères. Il peut ainsi traiter des textes de plus grande envergure, avec un délai de traitement de seulement 15 secondes par million de jetons. Grâce à des algorithmes de données corrélées tels que STRING, Doubao peut accéder rapidement à d’énormes quantités de connaissances externes et offrir une capacité de compréhension plus précise.

7. Révolution de la perception visuelle et de la réflexion approfondie

À la mi-décembre, Doubao a acquis une capacité de perception visuelle et peut intégrer plusieurs sens pour une réflexion approfondie. Il peut non seulement comprendre des images avec précision, mais aussi effectuer des calculs complexes, comme résoudre un problème de calcul intégral ; démontrant ainsi ses capacités exceptionnelles d’apprentissage et de raisonnement intermodaux.

8. Mise à niveau complète du modèle général Doubao-pro

À la mi-décembre, le modèle général Doubao-pro a été entièrement mis à niveau, ses capacités étant alignées sur celles de GPT-4, et il a appris à « réfléchir » pendant ses réponses. Cette mise à niveau a amélioré la précision de compréhension et la qualité de génération de Doubao-pro, faisant de lui un « combattant hexagonal » efficace, performant dans tous les domaines et devenant une nouvelle référence dans le domaine de l’IA.

QQ20241230-140344.png

Cette année, l’équipe de Doubao a réalisé des progrès significatifs dans la recherche fondamentale en IA. L’équipe a publié 57 articles et a participé à des conférences de premier plan telles que ICLR, CVPR et NeurIPS. De plus, l’équipe Doubao collabore étroitement avec plusieurs universités de renom et a créé des laboratoires conjoints pour promouvoir le développement des technologies de l’IA.

Doubao est non seulement une réussite technologique, mais il est également largement utilisé dans de nombreux secteurs. Via Volcano Engine, Doubao sert plus de 30 secteurs, avec un volume quotidien d’appels de jetons supérieur à 4 000 milliards, soit une augmentation de 33 fois par rapport à son lancement en mai.

Adresse officielle : https://mp.weixin.qq.com/s/KVfu86njzyK2iK4j6VJONw