Anim400K:视频自动配音设计数据集

站长之家
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
维基百科近日宣布,将通过与谷歌旗下的数据科学社区平台 Kaggle 的合作,发布一份专门优化用于人工智能模型训练的数据集。这一举措旨在减少 AI 开发者通过爬虫程序抓取维基百科数据的行为,保护平台的带宽和服务器资源。该数据集的内容包括英语和法语的结构化维基百科信息,具有良好的机器可读性,便于 AI 开发者进行建模、微调和数据分析。维基媒体基金会表示,这份数据集以开放许可的方式发布,内容涵盖了研究摘要、简短描述、图像链接、信息框数据以及文章的各个部分,但
由上海人工智能实验室发布的“万卷·丝路2.0”多语言多模态语料库正式开源。该语料库在原有的阿拉伯语、俄语、韩语、越南语、泰语等5个语种基础上,新增了塞尔维亚语、匈牙利语、捷克语3个稀缺语料数据,涵盖文本、图片、音频、视频四大模态,数据总量超过1150万条,音视频时长超过2.6万小时,成为小语种多模态领域的重要资源。
在程序开发的世界中,错误修复总是一个令人头疼的问题。如今,字节跳动的豆包大模型团队为此带来了好消息:他们正式推出了首个多语言软件工程(SWE)数据集 ——Multi-SWE-bench。这个新数据集旨在评估和提升大模型在自动修复代码错误方面的能力。Multi-SWE-bench 与以往的单语言数据集相比,显著扩大了适用范围。这一数据集不仅涵盖了 Python,还包括 Java、Go、Rust、C、C++、TypeScript 和 JavaScript 等七种主流编程语言,真正实现了 “全栈工程” 的评测基准。这意味着无论开发者使用哪种语言
近日,字节跳动豆包大模型团队宣布开源Multi-SWE-bench,这是业内首个多语言代码修复基准数据集,为大模型“自动修Bug”能力的评估与提升带来新突破。在大模型技术快速发展的当下,代码生成任务成为检验模型智能的关键领域。以SWE-bench为代表的代码修复基准,虽能衡量模型的编程智能,但存在明显局限。其仅聚焦Python语言,无法评估模型跨语言泛化能力;且任务难度有限,难以覆盖复杂开发场景,制约了大模型代码智能的进一步发展。面向不同模型代码能力评测分数Multi-SWE-bench应运而生
智元机器人今日正式宣布推出自主研发的大型仿真框架AgiBot Digital World,为机器人操作提供灵活的仿真数据生成方案、预训练的大规模仿真数据和统一的模型评测标准,并同步开源海量仿真数据。AgiBot Digital World是专为机器人操作技能研究与应用设计的仿真框架,集成海量逼真三维资产、多样化专家轨迹生成机制和全面模型评估工具。它通过高保真模拟训练场景,全链自动化生成数据,实现一系列具身仿真服务。该框架凭借丰富多样的物体、场景和机器人模型构建大规模、高精度三维资产库
谷歌 DeepMind 团队正式推出了 WebLI-100B 数据集,这是一个包含1000亿个图像 - 文本对的庞大数据集,旨在增强人工智能视觉语言模型的文化多样性和多语言性。通过这一数据集,研究人员希望改善视觉语言模型在不同文化和语言环境下的表现,同时减少各个子组之间的性能差异,从而提升人工智能的包容性。视觉语言模型(VLMs)依赖于大量数据集来学习如何连接图像与文本,从而执行如图像字幕生成和视觉问答等任务。过去,这些模型主要依赖于 Conceptual Captions 和 LAION 等大型数据集,虽然这
在近日发布的年度信中,YouTube 首席执行官尼尔・莫汉(Neal Mohan)将人工智能(AI)称为公司2025年四大 “重大赌注” 之一。莫汉提到,YouTube 正在积极投资于创作者的 AI 工具,这些工具包括视频创意、缩略图制作和语言翻译等功能。值得一提的是,翻译功能将于本月向所有参与 YouTube 合作计划的创作者推出,另一项 AI 功能则可以识别用户年龄,以便为他们定制合适的内容和推荐。过去一年,YouTube 还推出了一系列帮助创作者生成图像和视频背景的功能,同时还增加了为短视频添加音乐的选项
传统的视频理解模型在处理长视频时面临着许多挑战,包括理解长视频所带来的复杂上下文。尽管已有不少研究致力于提升视频理解能力,依然难以有效克服训练和推理效率低下的问题。针对这些问题,研究团队通过 HiCo 技术,将视频信息中的冗余部分进行压缩,从而显著降低计算需求,同时保留关键信息。具体而言,HiCo 通过对视频进行层次化压缩,将长视频分割成短片段,进而减少处理的标记数量。这一方法不仅降低了模型对计算资源的要求,还提升了上下文窗口的宽度,增强了模型
Meta 正面临一起涉及版权侵权的诉讼,原告律师称,Meta 首席执行官马克·扎克伯格批准公司使用盗版电子书和文章的数据集来训练其 Llama AI 模型。该案件是针对多家科技巨头的众多版权诉讼之一,这些公司被指控在未获授权的情况下使用受版权保护的作品进行 AI 模型训练。在周三晚间提交给美国加利福尼亚北区地方法院的文件中,原告重申了 Meta 去年年底的证词,证词中透露扎克伯格批准使用名为 LibGen 的数据集来进行与 Llama 相关的训练。LibGen 被视为一个“链接聚合器”,提供大量受版
近日,国家发展改革委、国家数据局和工业和信息化部联合发布了《国家数据基础设施建设指引》。该指引旨在推进全国各地积极建设政务服务大模型,促进政务服务的智能化进程,进而提升政府服务的效率与质量。指引中强调了数据标注产业的重要性,鼓励各地区在数据标注的生态构建、能力提升及场景应用方面进行探索与创新。政府将链接公共数据,主动公开企业及个人数据,同时建立高质量的数据资源开放目录,以此为社会提供统一的数据资源,促进信息共享。为了确保数据的准确