この度、Qafind Labsは最新開発のChatDLMモデルを発表しました。この革新的な成果は、人工知能分野で大きな注目を集めています。ChatDLMは、「ブロック拡散(Block Diffusion)」と「専門家混合(MoE)」を初めて深く融合させたモデルであり、GPU上で驚異的な2,800tokens/sという超高速推論を実現し、131,072tokensという超大規模なコンテキストウィンドウに対応することで、ドキュメントレベルの生成とリアルタイムでの対話を可能にしました。
ChatDLMの最大の特長はその独自の技術アーキテクチャにあります。このモデルは7Bパラメーターを使用し、ブロック拡散技術により入力をブロックに分割し、空間拡散とブロック間の注意機構を組み合わせることで、処理速度を大幅に向上させています。同時に、ChatDLMは専門家混合(MoE)技術を導入し、32~64個の専門家を配置し、一度に2つの専門家を選択して処理する柔軟なメカニズムにより、モデルの性能をさらに最適化しています。
超大規模なコンテキストに対応するため、ChatDLMはRoPE最適化と階層型キャッシュ技術を採用し、モデルの記憶能力を大幅に向上させています。推論の最適化においては、動的な早期停止、BF16混合精度、ZeRO分割などの技術により、マルチGPUへの容易な拡張を実現し、モデルの効率性と拡張性をさらに向上させています。
性能テストでは、ChatDLMはA100 GPU上で優れた性能を示し、スループットは2800tokens/s、コンテキストの長さは131,072tokens、平均反復ステップ数は12~25でした。HumanEval(0-shot)テストでは92.0%、Fill-in-the-Middleテストでは84.2%、ARC-E(0-shot)テストでは83.9%の精度を達成し、その優れた性能を十分に証明しています。
将来展望として、Qafind Labsは、適応型反復(Adaptive Iteration)、グラフ注意機構(Graph-Attention)、マルチモーダル拡散(Multimodal Diffusion)などの高度な技術をChatDLMに導入し、モデルの精度と適用範囲をさらに向上させる計画です。
体験アドレス:https://www.chatdlm.cn