彩雲科技は先日北京で「From Paper to App」をテーマとしたコミュニケーション会を開催し、DCFormerアーキテクチャに基づく汎用大規模モデル「雲錦天章」を正式に発表しました。同時に、同社のAI RPGプラットフォーム「彩雲小夢」がDCFormerベースのV3.5版にアップグレードされたことも発表しました。これは、人工知能分野におけるモデルアーキテクチャの効率性において、大きなブレークスルーを達成したことを意味します。
AI分野において、TransformerアーキテクチャはChatGPT、Geminiなどの主流の大規模モデルの中核技術を支えています。今年、彩雲科技は国際トップレベルの会議ICMLで発表された論文「Improving Transformers with Dynamically Composable Multi-Head Attention」において、DCFormerアーキテクチャを初めて提案しました。テストによると、このアーキテクチャに基づいて開発されたDCPythia-6.9Bモデルは、従来のTransformerモデルに比べて1.7~2倍のパフォーマンス向上を実現しました。
AI開発が直面するエネルギー問題について、彩雲科技のCEOである袁行遠氏は、予測によると2050年までに世界のAI消費電力は現在の地球の発電能力の8倍に達する可能性があると指摘しました。NVIDIAのCEOであるジェンスン・フアン氏も、現在の開発速度を維持すれば、「14個の惑星、3つの銀河系、4つの太陽」が必要になるだろうと表現しました。
この困難に対処するため、彩雲科技はモデルの基盤アーキテクチャの改善に着手しました。DCFormerは、動的に構成可能なマルチヘッドアテンション(DCMHA)メカニズムを導入することで、従来のマルチヘッドアテンションモジュール(MHA)におけるアテンションヘッドの固定的なバインディングを解消し、より柔軟な動的な組み合わせを実現しました。これにより、モデルの表現能力が大幅に向上しました。この革新により、彩雲科技はICML会議で発表した3本の論文で平均7点の高得点を獲得し、ウィーンで開催されたICML2024で講演に招待された国内のわずか2社のうちの1社となりました。
DCFormerアーキテクチャの最初の製品として、新バージョンの彩雲小夢は卓越した性能を示しています。1万文字の長文入力に対応し、ストーリーの背景設定の長さは最大1万文字に達し、全体的な流暢性と一貫性が20%向上しました。これは、AIがより効果的にプロットの一貫性を維持し、キャラクターの性格の一貫性を保ち、プロットの反省と修正能力を備えていることを意味します。
国内で最も早く大規模言語モデルに取り組んだ企業の一つである彩雲科技は、現在、彩雲天気、彩雲小夢、彩雲小訳の3つの収益性の高いAI製品を保有しています。同社は、DCFormerの研究開発への投資を継続し、「海外技術層、国内アプリケーション層」という従来の枠組みを打破し、国産AI技術が世界競争で優位に立つことを目指すと述べています。
今回の技術的ブレークスルーにより、彩雲科技は中国企業がAI基盤アーキテクチャの革新において持つ能力を示しただけでなく、AI開発におけるエネルギー問題の解決策についても新たな道を提示し、AI技術の持続可能な発展を加速させる可能性があります。