马毅团队发现：微调多模态大模型会导致灾难性遗忘

站长之家

发布于AI新闻资讯 · 1 分钟阅读 · 2023年9月28号 10:30

随着 GPT-4 的发布，多模态大模型（MLLM）成为热点。马毅团队提出了 EMT 框架，评估微调后的 MLLM 的灾难性遗忘。实验发现，微调 MLLM 在提升微调数据集性能的同时，也导致其他数据集性能下降。微调过程中，MLLM 会产生与微调数据集相关的幻觉文本，忽略原始问题。研究为后续工作提供了框架和基准，模型设计和训练技巧仍需进一步优化。马毅团队首次系统评估了 MLLM 中的灾难性遗忘问题，平衡不同能力之间的权衡。

效果最佳！阶跃星辰开源Step-Video-T2V 视频生成模型

今日，阶跃星辰与吉利汽车集团宣布，联合开源两款阶跃Step系列多模态大模型——Step-Video-T2V视频生成模型和Step-Audio语音模型。其中，阶跃Step-Video-T2V视频生成模型在参数量和性能上均处于全球领先水平。该模型拥有300亿参数量，能够直接生成204帧、540P分辨率的高质量视频，确保生成内容信息密度高、一致性强。评测结果显示，Step-Video-T2V在指令遵循、运动平滑性、物理合理性、美感度等方面均表现出色，显著超越市面上既有的最佳开源视频模型。

当虹科技的BlackEye大模型与DeepSeek深度融合

近日，当虹科技宣布其 BlackEye 多模态视听大模型成功完成与 DeepSeek-R1和 DeepSeek Janus Pro 的深度融合。这一里程碑式的进展标志着当虹科技在视听传媒、工业与卫星、车载智能座舱等多个行业的应用潜力将得到进一步释放。随着科技的迅猛发展，多模态大模型正逐渐成为推动各行业创新的重要力量。通过将 DeepSeek 的技术与 BlackEye 大模型结合，当虹科技实现了对多行业场景的精准调优训练。这不仅使得模型的训练成本大幅降低，还能提供更加优质的用户体验。例如，在视听传媒领域，相关企

DeepSeek深夜再放大招，发布全新多模态大模型Janus-Pro

国产大模型DeepSeek发布了全新的Janus-Pro多模态大模型，正式进军文生图领域。这一举动标志着DeepSeek在多模态AI技术上的重大突破。在GenEval和DPG-Bench基准测试中，Janus-Pro-7B不仅击败了OpenAI的DALL-E3，还超越了Stable Diffusion、Emu3-Gen等热门模型。Janus-Pro采用MIT开源协议，这意味着它可以无限制地用于商业场景。DeepSeek表示，Janus-Pro是2024年11月13日发布的JanusFlow大模型的高级版本。相比前代模型，Janus-Pro优化了训练策略，扩展了训练数据，并且模型规模更大。这些改进使得Janus-Pro在多模态理解和文本

阿里巴巴达摩院推出电商场景多模态大模型Valley 2

阿里巴巴达摩院近日推出了一款名为Valley2的多模态大型语言模型，该模型基于电商场景设计，旨在通过可扩展的视觉-语言架构，提升各领域性能并拓展电商与短视频场景的应用边界。Valley2采用了Qwen2.5作为LLM主干，搭配SigLIP-384视觉编码器，结合MLP层和卷积进行高效特征转换。