Caiyun Technology celebró recientemente en Pekín una reunión de comunicación bajo el lema "De papel a aplicación", lanzando oficialmente "Yun Jin Tian Zhang", un modelo lingüístico grande general basado en la arquitectura DCFormer, y anunciando la actualización de su plataforma de RPG de IA, Caiyun Xiaomeng, a la versión V3.5 basada en DCFormer. Esto marca un gran avance en la eficiencia de la arquitectura de modelos en el campo de la inteligencia artificial.

En el campo de la IA, la arquitectura Transformer ha sido el pilar tecnológico central de los principales modelos lingüísticos grandes como ChatGPT y Gemini. Este año, Caiyun Technology publicó en la conferencia internacional de alto nivel ICML el artículo "Mejorando los transformadores con atención multi-cabeza dinámicamente composible", presentando por primera vez la arquitectura DCFormer. Las pruebas muestran que el modelo DCPythia-6.9B, desarrollado basándose en esta arquitectura, ha logrado una mejora significativa del rendimiento de 1,7 a 2 veces en comparación con los modelos Transformer tradicionales.

En cuanto a los desafíos energéticos que enfrenta el desarrollo de la IA, Yuan Xingyuan, CEO de Caiyun Technology, señaló que, según las predicciones, para 2050, el consumo de energía de la IA a nivel mundial podría alcanzar 8 veces la capacidad de generación de energía actual del planeta. El CEO de Nvidia, Huang Renxun, lo expresó de forma más gráfica: al ritmo actual de desarrollo, en el futuro se necesitarían "14 planetas, 3 galaxias y 4 soles" para alimentar la IA.

Para abordar esta dificultad, Caiyun Technology ha optado por mejorar la arquitectura subyacente del modelo. DCFormer introduce un mecanismo de atención multi-cabeza dinámicamente composible (DCMHA), eliminando el enlace fijo de las cabezas de atención en el módulo de atención multi-cabeza tradicional (MHA), logrando una combinación dinámica más flexible y mejorando en gran medida la capacidad de expresión del modelo. Esta innovación ha permitido a Caiyun Technology obtener una puntuación media de 7 en sus tres artículos publicados en la conferencia ICML, convirtiéndose en una de las dos únicas empresas nacionales invitadas a presentar en el ICML 2024 en Viena.

Como primer producto lanzado basado en la arquitectura DCFormer, la nueva versión de Caiyun Xiaomeng muestra un rendimiento excepcional: admite la entrada de textos largos de hasta 10.000 caracteres, la configuración del contexto de la historia puede llegar a los 10.000 caracteres, y la fluidez y coherencia general se han mejorado en un 20%. Esto significa que la IA puede mantener mejor la coherencia de la trama, mantener la consistencia del personaje y tener la capacidad de reflexionar y corregir la trama.

Caiyun Technology, una de las primeras empresas nacionales en dedicarse a los modelos lingüísticos grandes, ya cuenta con tres productos de IA rentables: Caiyun Weather, Caiyun Xiaomeng y Caiyun Xiaoyi. La empresa ha declarado que continuará aumentando la inversión en I+D de DCFormer, con el objetivo de romper el patrón tradicional de "capa tecnológica extranjera, capa de aplicación nacional" y promover que la tecnología de IA nacional ocupe una posición ventajosa en la competencia global.

Con este avance tecnológico, Caiyun Technology no solo ha demostrado la capacidad de las empresas chinas en la innovación de la arquitectura subyacente de la IA, sino que también ha proporcionado nuevas ideas para resolver los cuellos de botella energéticos del desarrollo de la IA, con el potencial de acelerar el desarrollo sostenible de la tecnología de IA.