MiniMax于近日低调发布了首款视频生成大模型,并同步推出由该模型生成的2分钟视频《魔法硬币》。尽管公司尚未公开模型的具体参数和技术细节,但创始人闫俊杰在媒体群访中表示,其视频生成效果优于Runway。
闫俊杰透露,当前发布的仅是第一版模型,后续将在数据、算法和使用细节等方面持续迭代。除了现有的文生视频功能,未来还将推出图生视频和文图结合生成视频的能力。对于商业化计划,闫俊杰表示将在新版本达到满意状态后考虑。
相比快手可灵,MiniMax的视频生成模型推出时间晚了一两个月。闫俊杰解释称,这是因为团队一直在解决更具挑战性的技术问题,特别是如何训练算力较高的内容。他强调,MiniMax的核心研发思路是追求显著的性能提升,而不仅仅是小幅度的改进。
图源备注:图片由AI生成,图片授权服务商Midjourney
闫俊杰认为,开发视频生成能力的核心动机是为了提高用户覆盖度和使用度。他指出,人类日常消费的内容以图文和视频为主,因此多模态内容生成是必然的发展方向。
然而,视频生成大模型面临着诸多挑战。闫俊杰解释,视频生成的复杂度远高于文本,包括处理长上下文、巨大的存储需求以及基础设施升级等问题。
MiniMax开放平台负责人魏伟业指出,当前大模型面临的主要挑战包括不可避免的幻觉、高昂的使用成本以及多模态应用的开发。他认为,随着API成本的进一步降低,将会激发更多应用场景的出现。
面对行业内的诸多争议,如toB还是toC、国内市场还是海外市场等问题,闫俊杰表示MiniMax对技术进步、用户和产品迭代效率保持乐观态度。