马毅团队发现:微调多模态大模型会导致灾难性遗忘

今日,阶跃星辰与吉利汽车集团宣布,联合开源两款阶跃Step系列多模态大模型——Step-Video-T2V视频生成模型和Step-Audio语音模型。其中,阶跃Step-Video-T2V视频生成模型在参数量和性能上均处于全球领先水平。该模型拥有300亿参数量,能够直接生成204帧、540P分辨率的高质量视频,确保生成内容信息密度高、一致性强。评测结果显示,Step-Video-T2V在指令遵循、运动平滑性、物理合理性、美感度等方面均表现出色,显著超越市面上既有的最佳开源视频模型。
近日,当虹科技宣布其 BlackEye 多模态视听大模型成功完成与 DeepSeek-R1和 DeepSeek Janus Pro 的深度融合。这一里程碑式的进展标志着当虹科技在视听传媒、工业与卫星、车载智能座舱等多个行业的应用潜力将得到进一步释放。随着科技的迅猛发展,多模态大模型正逐渐成为推动各行业创新的重要力量。通过将 DeepSeek 的技术与 BlackEye 大模型结合,当虹科技实现了对多行业场景的精准调优训练。这不仅使得模型的训练成本大幅降低,还能提供更加优质的用户体验。例如,在视听传媒领域,相关企
国产大模型DeepSeek发布了全新的Janus-Pro多模态大模型,正式进军文生图领域。这一举动标志着DeepSeek在多模态AI技术上的重大突破。在GenEval和DPG-Bench基准测试中,Janus-Pro-7B不仅击败了OpenAI的DALL-E3,还超越了Stable Diffusion、Emu3-Gen等热门模型。Janus-Pro采用MIT开源协议,这意味着它可以无限制地用于商业场景。DeepSeek表示,Janus-Pro是2024年11月13日发布的JanusFlow大模型的高级版本。相比前代模型,Janus-Pro优化了训练策略,扩展了训练数据,并且模型规模更大。这些改进使得Janus-Pro在多模态理解和文本
阿里巴巴达摩院近日推出了一款名为Valley2的多模态大型语言模型,该模型基于电商场景设计,旨在通过可扩展的视觉-语言架构,提升各领域性能并拓展电商与短视频场景的应用边界。Valley2采用了Qwen2.5作为LLM主干,搭配SigLIP-384视觉编码器,结合MLP层和卷积进行高效特征转换。