A Caiyun Technology realizou recentemente em Pequim um evento de comunicação com o tema "De Papel para App", lançando oficialmente o modelo de linguagem grande "Yun Jin Tian Zhang", baseado na arquitetura DCFormer, e anunciando a atualização da sua plataforma de RPG de IA, Caiyun Xiaomeng, para a versão V3.5, também baseada em DCFormer. Isso marca um avanço significativo na eficiência da arquitetura de modelos na área de inteligência artificial.
No campo da IA, a arquitetura Transformer tem sido o suporte tecnológico central para modelos de linguagem grandes como ChatGPT e Gemini. Este ano, a Caiyun Technology publicou na conferência internacional de ponta ICML o artigo "Improving Transformers with Dynamically Composable Multi-Head Attention", apresentando pela primeira vez a arquitetura DCFormer. Testes mostraram que o modelo DCPythia-6.9B, desenvolvido com base nessa arquitetura, alcançou uma melhoria de desempenho de 1,7 a 2 vezes em comparação com os modelos Transformer tradicionais.
Em relação aos desafios energéticos enfrentados pelo desenvolvimento da IA, o CEO da Caiyun Technology, Yuan Xingyuan, apontou que, segundo previsões, o consumo de energia da IA global em 2050 poderá atingir 8 vezes a capacidade atual de geração de eletricidade do planeta. O CEO da Nvidia, Jensen Huang, expressou de forma ainda mais ilustrativa que, com a velocidade atual de desenvolvimento, no futuro poderá ser necessário "14 planetas, 3 galáxias e 4 sóis" para fornecer energia à IA.
Para enfrentar essa situação, a Caiyun Technology optou por melhorar a arquitetura de base do modelo. O DCFormer introduz o mecanismo de atenção multi-cabeça com composição dinâmica (DCMHA), eliminando o vínculo fixo entre as cabeças de atenção no módulo de atenção multi-cabeça (MHA) tradicional, permitindo uma combinação dinâmica mais flexível e, consequentemente, aumentando significativamente a capacidade de expressão do modelo. Essa inovação rendeu à Caiyun Technology uma média de 7 pontos em três artigos publicados na conferência ICML, tornando-se uma das duas únicas empresas chinesas convidadas a apresentar seus trabalhos na ICML 2024 em Viena.
Como primeiro produto a utilizar a arquitetura DCFormer, a nova versão do Caiyun Xiaomeng demonstra desempenho excepcional: suporta entrada de texto longo de até 10.000 caracteres, a configuração de cenário pode chegar a 10.000 caracteres e a fluidez e coerência geral melhoraram em 20%. Isso significa que a IA pode manter melhor a coerência da trama, a consistência da personalidade dos personagens e possui capacidade de reflexão e correção da trama.
A Caiyun Technology, uma das primeiras empresas chinesas a se dedicar a modelos de linguagem grandes, já possui três produtos de IA lucrativos: Caiyun Weather, Caiyun Xiaomeng e Caiyun Xiaoyi. A empresa afirma que continuará investindo no desenvolvimento do DCFormer, buscando quebrar o padrão tradicional de "camada tecnológica estrangeira e camada de aplicação doméstica" e impulsionar a tecnologia de IA chinesa a ocupar uma posição de destaque na competição global.
Por meio dessa inovação tecnológica, a Caiyun Technology não apenas demonstra a força das empresas chinesas em inovação de arquitetura de base de IA, mas também oferece novas ideias para resolver o gargalo energético no desenvolvimento da IA, com potencial para acelerar o desenvolvimento sustentável da tecnologia de IA.