Caiyun Technology a récemment organisé à Pékin une réunion de communication sur le thème « From Paper to App », lors de laquelle a été officiellement lancé « Yun Jin Tian Zhang », un grand modèle généralisé basé sur l’architecture DCFormer, et la mise à niveau de sa plateforme RPG IA Caiyun Xiaomeng vers la version 3.5 basée sur DCFormer. Cela marque une percée majeure dans l’efficacité de l’architecture des modèles dans le domaine de l’intelligence artificielle.

Dans le domaine de l’IA, l’architecture Transformer a toujours été le pilier technologique des grands modèles dominants tels que ChatGPT et Gemini. Cette année, Caiyun Technology a publié un article intitulé « Improving Transformers with Dynamically Composable Multi-Head Attention » lors de la conférence internationale de premier plan ICML, présentant pour la première fois l’architecture DCFormer. Les tests ont montré que le modèle DCPythia-6.9B, développé sur la base de cette architecture, a réalisé une amélioration significative des performances par rapport aux modèles Transformer traditionnels, avec un facteur de 1,7 à 2.

Concernant les défis énergétiques auxquels est confronté le développement de l’IA, Yuan Xingyuan, PDG de Caiyun Technology, a souligné que, selon les prévisions, la consommation d’énergie mondiale de l’IA pourrait atteindre huit fois la capacité de production d’électricité actuelle de la Terre d’ici 2050. Huang Renxun, PDG de Nvidia, a même déclaré de manière imagée que, au rythme actuel de développement, il faudrait « 14 planètes, 3 galaxies et 4 soleils » pour alimenter l’IA.

Pour faire face à cette difficulté, Caiyun Technology a choisi d’améliorer l’architecture sous-jacente du modèle. DCFormer, grâce à l’introduction d’un mécanisme d’attention multi-têtes dynamiquement composable (DCMHA), supprime le lien fixe entre les têtes d’attention du module d’attention multi-têtes traditionnel (MHA), permettant une combinaison dynamique plus flexible et améliorant ainsi considérablement la capacité d’expression du modèle. Cette innovation a permis aux trois articles de Caiyun Technology lors de la conférence ICML d’obtenir une note moyenne de 7, faisant de l’entreprise l’une des deux seules entreprises chinoises invitées à présenter leurs travaux à Vienne lors de l’ICML 2024.

En tant que premier produit concret de l’architecture DCFormer, la nouvelle version de Caiyun Xiaomeng présente des performances exceptionnelles : elle prend en charge les entrées de texte long jusqu’à 10 000 mots, la longueur de la configuration du contexte de l’histoire peut atteindre 10 000 mots, et la fluidité et la cohérence globales sont améliorées de 20 %. Cela signifie que l’IA est capable de mieux maintenir la cohérence de l’intrigue, de préserver la cohérence des personnages et de posséder une capacité de réflexion et de correction de l’intrigue.

Caiyun Technology, l’une des premières entreprises chinoises à s’être lancée dans les grands modèles de langage, possède actuellement trois produits IA rentables : Caiyun Weather, Caiyun Xiaomeng et Caiyun Xiaoyi. L’entreprise a déclaré qu’elle continuerait à investir massivement dans la recherche et le développement de DCFormer, afin de briser la structure traditionnelle « couche technologique étrangère, couche applicative nationale » et de permettre aux technologies IA chinoises de prendre une position dominante dans la compétition mondiale.

Grâce à cette percée technologique, Caiyun Technology a non seulement démontré la capacité des entreprises chinoises en matière d’innovation dans l’architecture sous-jacente de l’IA, mais a également fourni de nouvelles pistes pour résoudre les goulots d’étranglement énergétiques du développement de l’IA, ce qui pourrait accélérer le développement durable des technologies de l’IA.