彩云科技日前在北京举办"From Paper to App"主题沟通会,正式发布基于DCFormer架构的通用大模型"云锦天章",并宣布旗下AI RPG平台彩云小梦升级至基于DCFormer的V3. 5 版本。这标志着人工智能领域在模型架构效率方面取得重大突破。在AI领域,Transformer架构一直是ChatGPT、Gemini等主流大模型的核心技术支撑。今年,彩云科技在国际顶级会议ICML上发表的论文《Improving Transformers with Dynamically Composable Multi-Head Attention》首次提出DCFormer架构。测试显示,基于该架构开发的DCPythia-6.9B模型在性能上实现了对传统
生成高质量、时间连续的视频需要大量的计算资源,尤其是对于较长的时间跨度而言。最新的扩散Transformer 模型(DiTs)虽然在视频生成方面取得了显著进展,但由于其依赖于更大的模型和更复杂的注意力机制,导致推理速度较慢,反而加剧了这一挑战。为了解决这个问题,Meta AI 的研究人员提出了一种名为 AdaCache 的免训练方法来加速视频 DiTs。AdaCache 的核心思想是基于“并非所有视频都相同”这一事实,这意味着某些视频比其他视频需要更少的去噪步骤即可达到合理的质量。 基于此,该方
阿里巴巴通义实验室最新研究表明,现有的文生图 Diffusion Transformer 模型其实已经具备生成多张具有特定关系图像的能力,只需稍加“点拨”就能“融会贯通”,生成高质量的多图集。传统的 Diffusion 模型更像是一个“死记硬背”的学生,需要用海量数据训练,才能生成高质量的图像。而有了 IC-LoRA 加持,它就变成了“触类旁通”的学霸,只需要少量样本就能学会新技能。这背后的原理说起来也不复杂,研究人员发现,现有的文生图 Diffusion 模型其实已经具备一定的“上下文学习”能力,只
最近,DeepMind一篇关于超大规模 Transformer 在国际象棋领域应用的论文,引发了 AI 社区的广泛讨论。研究人员利用名为 ChessBench 的全新数据集,训练了多达2.7亿参数的 Transformer 模型,探索其在棋类这种复杂规划问题上的能力。ChessBench 数据集包含从 Lichess 平台收集的1000万局人类对弈棋谱,并使用顶级象棋引擎 Stockfish16对棋局进行了标注,提供了多达150亿个数据点,包括每个棋局状态的胜率、最佳走法以及所有合法走法的价值评估。研究人员使用监督学习方法,训练 Transformer 模型预测给定棋