大模型新突破：从教学视频中提炼高质量多模态教科书

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2025年1月20号 17:54

165

近日，浙江大学与阿里巴巴达摩院联合发布了一项引人瞩目的研究，旨在通过教学视频创建高质量的多模态教科书。这一创新的研究成果不仅为大规模语言模型（VLMs）的训练提供了新的思路，也可能改变教育资源的利用方式。

随着人工智能技术的迅猛发展，VLMs 的预训练语料主要依赖图文对数据与图文交织语料。然而，当前的这些数据多来自网页，文本与图像的关联性较弱，知识密度也相对较低，无法有效支持复杂的视觉推理。

为了应对这一挑战，研究团队决定从互联网上海量的教学视频中提炼高质量的知识语料。他们收集了超过15.9万个教学视频，经过精细的过滤和处理，最终保留了75，000个高质量视频，涵盖数学、物理、化学等多个学科，总时长超过22，000小时。

研究者们设计了一条复杂的 “视频到教科书” 处理管道。首先，使用自动语音识别（ASR）技术将视频中的讲解内容转录为文本，接着通过图像分析和文字匹配，筛选出与知识点高度相关的片段。最终，这些处理过的关键帧、OCR 文本和转录文本被交错组织，形成了一个内容丰富、结构严谨的多模态教科书。

这一研究的初步结果显示，与以往的网页中心数据集相比，新生成的教科书数据集在知识密度和图像关联性上显著提升，为 VLMs 的学习提供了更为坚实的基础。此外，研究还引起了学术界的广泛关注，相关数据集在 Hugging Face 平台上迅速攀升至热门榜单，短短两周内下载量便超过7000次。

通过这一创新的尝试，研究者们希望不仅能推动 VLMs 的发展，更能在教育资源的整合与应用上开启新的可能性。

论文地址：https://arxiv.org/pdf/2501.00958

AI才女罗福莉已到新岗位上班此前曾被雷军千万年薪挖角

近日，国内媒体从罗福莉亲属处获悉，这位95后的AI天才少女已正式踏上新的职业旅程，开始在新岗位上工作。然而，关于其具体就职的公司名称，目前尚未有确切信息透露。回顾2024年底，科技界曾掀起一阵波澜，原因是小米集团创始人雷军以千万年薪的优厚条件，力邀罗福莉加入其团队，旨在推动AI大模型研究领域的突破。这一举动迅速在网络上引发热烈讨论。

日本AI专家评DeepSeek:中国AI新星崛起，技术实力接近OpenAI

中国初创企业DeepSeek（深度求索）开发的高性能、低成本生成式AI大规模语言模型(LLM)近日引发全球关注。日本AI研究领域的权威、东京大学教授松尾丰在接受日本经济新闻采访时，对DeepSeek的技术水平、开源战略及其对日本企业的影响进行了深入分析。松尾丰表示，DeepSeek的技术非常出色，其性能与美国OpenAI开发的ChatGPT接近。他指出，DeepSeek每次发布新模型时都会发布详细的技术论文，展示其在模型优化方面的创新之处。例如，今年1月发布的最新模型“R1”通过强化学习提升了推理能力，

阿里巴巴达摩院推出电商场景多模态大模型Valley 2

阿里巴巴达摩院近日推出了一款名为Valley2的多模态大型语言模型，该模型基于电商场景设计，旨在通过可扩展的视觉-语言架构，提升各领域性能并拓展电商与短视频场景的应用边界。Valley2采用了Qwen2.5作为LLM主干，搭配SigLIP-384视觉编码器，结合MLP层和卷积进行高效特征转换。

研究揭示：仅需 0.001% 的虚假数据就能让 AI 模型失效

近期，纽约大学的研究团队发表了一项研究，揭示了大规模语言模型（LLM）在数据训练中的脆弱性。他们发现，即使是极少量的虚假信息，只需占训练数据的0.001%，就能导致整个模型出现重大错误。这一发现对于医疗领域尤其引人关注，因为错误的信息可能直接影响患者的安全。图源备注：图片由AI生成，图片授权服务商Midjourney研究人员在《自然医学》杂志上发表的论文中指出，虽然 LLM 表现出色，但如果其训练数据中被注入了虚假信息，这些模型依然可能在一些开放源代码的评估基准上

AI新闻资讯

大模型新突破：从教学视频中提炼高质量多模态教科书

AIbase基地

相关AI新闻推荐

AI才女罗福莉已到新岗位上班 此前曾被雷军千万年薪挖角

日本AI专家评DeepSeek:中国AI新星崛起，技术实力接近OpenAI

阿里巴巴达摩院推出电商场景多模态大模型Valley 2

​研究揭示：仅需 0.001% 的虚假数据就能让 AI 模型失效

AI才女罗福莉已到新岗位上班此前曾被雷军千万年薪挖角

研究揭示：仅需 0.001% 的虚假数据就能让 AI 模型失效