Le 25 juillet, Volcano Engine a organisé à Chengdu le 2024 AI Innovation Tour. Volcano Engine a annoncé que son modèle linguistique de grande taille Doubao a dépassé les 500 milliards de jetons utilisés quotidiennement, soit une augmentation de 22 fois de la consommation moyenne quotidienne de jetons par entreprise cliente depuis le lancement du modèle le 15 mai. Zhang Xin, vice-président de Volcano Engine, a déclaré que Volcano Engine se développait dans une direction plus intelligente, sectorielle et régionale, et qu'il aidait les entreprises à innover grâce à des solutions sectorielles, des produits et des services optimisés.
Lors de la conférence, Volcano Engine a présenté les dernières capacités du modèle linguistique de grande taille Doubao, notamment des améliorations en matière d'images visuelles, de synthèse vocale et de reproduction sonore. Les modèles Doubao · Image-à-image et Doubao · Texte-à-image se sont distingués par leur capacité à préserver les caractéristiques de l'image originale et à améliorer la qualité de l'image. Les modèles Doubao · Synthèse vocale et Doubao · Reproduction sonore ont quant à eux amélioré l'expression des émotions et la restitution des caractéristiques vocales du locuteur.
Modèle Doubao · Image-à-image : non seulement il préserve fidèlement les caractéristiques multidimensionnelles de l'image originale, telles que les contours des personnages, les expressions et la structure spatiale, mais il prend également en charge plus de 50 styles différents, ainsi que l'extension d'images, le re-dessin local et les fonctions de floutage, permettant une extension créative des images. Il est actuellement utilisé dans les applications Douyin, Jianying, Doubao et Xinghui, et sert des entreprises telles que Samsung et Nubia, couvrant de nombreux domaines tels que les albums photos de téléphones portables, les assistants, le marketing électronique et la diffusion de publicités.
Modèle Doubao · Texte-à-image : comprend en profondeur les informations relatives à un grand nombre de sujets, aux relations entre sujet et objet, à la structure des personnages et à la structure spatiale, ce qui permet une correspondance plus précise entre le texte et l'image ; il est plus apte à améliorer la qualité de l'image sur trois axes : la lumière et l'ombre, l'ambiance colorée et l'esthétique des personnages ; il optimise le contenu chinois et est capable de comprendre finement les personnages, les objets, les dynasties, la géographie, la gastronomie et les fêtes chinoises.
Modèle Doubao · Synthèse vocale : capable de comprendre en profondeur l'intrigue et les personnages, et d'exprimer correctement les émotions ; il préserve les habitudes de prononciation telles que les déglutitions et les accents, offrant une qualité vocale comparable à celle d'un humain, pour une prononciation plus naturelle ; 26 voix de haute qualité ultra-naturelles répondent aux besoins de divers scénarios.
Modèle Doubao · Reproduction sonore : il suffit de 5 secondes pour reproduire une voix haute fidélité, restituant fidèlement les caractéristiques vocales et l'accent du locuteur, et prenant en charge le transfert entre 6 grandes langues, pour une prononciation plus proche de celle d'un locuteur natif.
Parallèlement, Volcano Ark fournit des plugins et des capacités d'agents intelligents essentiels, ainsi qu'une solution de sécurité et de fiabilité des données sur l'ensemble du cycle de vie, pour aider les entreprises à mettre facilement en œuvre des modèles linguistiques de grande taille. Les trois principaux plugins de Toutiao et Douyin ont été améliorés, et un plugin d'analyse de pages Web et un plugin de calculatrice ont été ajoutés, répondant aux divers besoins des entreprises. Volcano Engine propose une version professionnelle de Kouzi, qui prend en charge la création à faible code de « AI Bot » experts adaptés aux scénarios métier des entreprises.
Volcano Engine a également créé HiAgent, une plateforme d'innovation d'applications IA exclusives aux entreprises, pour aider les entreprises à franchir le dernier kilomètre vers l'adoption des grands modèles linguistiques. HiAgent renforce les applications IA des entreprises sur trois axes : vitesse, densité et épaisseur, pour un déploiement rapide et une optimisation continue. Le cloud IA complet de Volcano Engine s'appuie sur la mise en commun de ressources massives de ByteDance, prend en charge les architectures multicœurs et multicloud, fournit une puissance de calcul à très grande échelle, prend en charge les réseaux de clusters de plusieurs milliers de cartes et les grands modèles MoE à des milliards de paramètres.