La famille de grands modèles Doubao fait peau neuve : lancement des modèles de compréhension visuelle et de musique 4.0

Lors du sommet FORCE de Volcano Engine, le 18 décembre 2024, Volcano Engine a annoncé une mise à niveau complète de sa famille de modèles linguistiques Doubao et a lancé un nouveau modèle de compréhension visuelle.

Tan Dai, président de Volcano Engine, a déclaré que l'utilisation quotidienne des jetons du modèle linguistique Doubao a connu une croissance fulgurante au cours des derniers mois, atteignant plus de 4 000 milliards, soit une augmentation de 33 fois par rapport à son lancement en mai. Cette tendance à la croissance montre l'utilisation répandue du modèle linguistique Doubao dans de nombreux scénarios d'application.

Cette fois-ci, Volcano Engine, grâce au lancement du modèle de compréhension visuelle, permet aux utilisateurs de saisir simultanément du texte et des images, le modèle pouvant comprendre et fournir des réponses précises. Cette innovation simplifiera considérablement le processus de développement des applications et stimulera le potentiel des grands modèles dans davantage de scénarios.

Le modèle de compréhension visuelle possède une capacité de reconnaissance de contenu plus forte. Il peut non seulement identifier les catégories d'objets, les formes et autres éléments de base contenus dans une image, mais aussi comprendre les relations entre les objets, la disposition spatiale et la signification globale de la scène. Par exemple, il peut identifier les ombres et les connaissances naturelles.

Le modèle de compréhension visuelle possède des capacités de compréhension et de raisonnement plus fortes. Il peut non seulement mieux identifier le contenu, mais aussi effectuer des calculs logiques complexes en fonction des informations textuelles et graphiques identifiées, tels que le raisonnement graphique et le raisonnement physique.

De plus, il possède une capacité de description visuelle plus fine. Il peut décrire plus finement le contenu présenté sur une image en fonction des informations de l'image, et peut également créer différents styles de texte, tels que la création d'images et la création de poèmes d'images.

Le modèle de compréhension visuelle Doubao présente de vastes perspectives d'application dans plusieurs domaines, notamment l'éducation, le tourisme et le commerce électronique. Par exemple, dans le domaine de l'éducation, le modèle peut aider les élèves à améliorer leurs compositions et leurs connaissances scientifiques ; dans le domaine du tourisme, le modèle peut fournir aux touristes la traduction de menus en langues étrangères et des explications sur le contexte architectural ; dans le marketing du commerce électronique, il peut aider les commerçants à décrire en détail les caractéristiques des produits, améliorant ainsi l'efficacité publicitaire.

Le coût d'utilisation du modèle de compréhension visuelle est également très abordable, le prix de 1 000 jetons étant de 0,003 yuan, soit une réduction de 85 % par rapport au prix moyen du secteur. Ce niveau de prix permet de traiter jusqu'à 284 images 720P pour un yuan, marquant l'entrée de la technologie de compréhension visuelle dans « l'ère du centime ». De plus, Volcano Engine offre aux entreprises et aux développeurs un soutien initial de 15 000 traitements, pour les aider à mieux utiliser cette technologie.

Lors de ce sommet, Volcano Engine a non seulement lancé le modèle de compréhension visuelle, mais a également mis à niveau plusieurs autres modèles. Les capacités de traitement des tâches globales du modèle général Doubao Pro ont augmenté de 32 % depuis mai, avec des améliorations significatives dans les domaines du raisonnement, du respect des instructions, du code et des mathématiques. Parallèlement, le modèle de génération vidéo Doubao sera ouvert aux services externes en janvier 2025, les entreprises pouvant réserver son utilisation.

Afin d'améliorer la capacité d'acquisition d'informations et de recommandation de recherche des entreprises, Volcano Engine a également lancé le service de recherche IA omnicanal, aidant les entreprises à mieux connecter les informations et les besoins des utilisateurs, et contribuant à la transformation intelligente de divers secteurs.

Points clés :
🔍 L'utilisation quotidienne des jetons du modèle linguistique Doubao atteint 4 000 milliards, soit une augmentation de 33 fois par rapport à mai.
💡 Le nouveau modèle de compréhension visuelle prend en charge la saisie simultanée de texte et d'images, et convient aux domaines de l'éducation, du tourisme et du commerce électronique.
💰 Le coût d'utilisation de 1 000 jetons n'est que de 0,003 yuan, nettement inférieur au prix moyen du secteur.

Actualités IA

La famille de grands modèles Doubao fait peau neuve : lancement des modèles de compréhension visuelle et de musique 4.0

AIbase基地