Anim400K:视频自动配音设计数据集

站长之家
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
智元机器人今日正式宣布推出自主研发的大型仿真框架AgiBot Digital World,为机器人操作提供灵活的仿真数据生成方案、预训练的大规模仿真数据和统一的模型评测标准,并同步开源海量仿真数据。AgiBot Digital World是专为机器人操作技能研究与应用设计的仿真框架,集成海量逼真三维资产、多样化专家轨迹生成机制和全面模型评估工具。它通过高保真模拟训练场景,全链自动化生成数据,实现一系列具身仿真服务。该框架凭借丰富多样的物体、场景和机器人模型构建大规模、高精度三维资产库
谷歌 DeepMind 团队正式推出了 WebLI-100B 数据集,这是一个包含1000亿个图像 - 文本对的庞大数据集,旨在增强人工智能视觉语言模型的文化多样性和多语言性。通过这一数据集,研究人员希望改善视觉语言模型在不同文化和语言环境下的表现,同时减少各个子组之间的性能差异,从而提升人工智能的包容性。视觉语言模型(VLMs)依赖于大量数据集来学习如何连接图像与文本,从而执行如图像字幕生成和视觉问答等任务。过去,这些模型主要依赖于 Conceptual Captions 和 LAION 等大型数据集,虽然这
在近日发布的年度信中,YouTube 首席执行官尼尔・莫汉(Neal Mohan)将人工智能(AI)称为公司2025年四大 “重大赌注” 之一。莫汉提到,YouTube 正在积极投资于创作者的 AI 工具,这些工具包括视频创意、缩略图制作和语言翻译等功能。值得一提的是,翻译功能将于本月向所有参与 YouTube 合作计划的创作者推出,另一项 AI 功能则可以识别用户年龄,以便为他们定制合适的内容和推荐。过去一年,YouTube 还推出了一系列帮助创作者生成图像和视频背景的功能,同时还增加了为短视频添加音乐的选项
传统的视频理解模型在处理长视频时面临着许多挑战,包括理解长视频所带来的复杂上下文。尽管已有不少研究致力于提升视频理解能力,依然难以有效克服训练和推理效率低下的问题。针对这些问题,研究团队通过 HiCo 技术,将视频信息中的冗余部分进行压缩,从而显著降低计算需求,同时保留关键信息。具体而言,HiCo 通过对视频进行层次化压缩,将长视频分割成短片段,进而减少处理的标记数量。这一方法不仅降低了模型对计算资源的要求,还提升了上下文窗口的宽度,增强了模型
Meta 正面临一起涉及版权侵权的诉讼,原告律师称,Meta 首席执行官马克·扎克伯格批准公司使用盗版电子书和文章的数据集来训练其 Llama AI 模型。该案件是针对多家科技巨头的众多版权诉讼之一,这些公司被指控在未获授权的情况下使用受版权保护的作品进行 AI 模型训练。在周三晚间提交给美国加利福尼亚北区地方法院的文件中,原告重申了 Meta 去年年底的证词,证词中透露扎克伯格批准使用名为 LibGen 的数据集来进行与 Llama 相关的训练。LibGen 被视为一个“链接聚合器”,提供大量受版
近日,国家发展改革委、国家数据局和工业和信息化部联合发布了《国家数据基础设施建设指引》。该指引旨在推进全国各地积极建设政务服务大模型,促进政务服务的智能化进程,进而提升政府服务的效率与质量。指引中强调了数据标注产业的重要性,鼓励各地区在数据标注的生态构建、能力提升及场景应用方面进行探索与创新。政府将链接公共数据,主动公开企业及个人数据,同时建立高质量的数据资源开放目录,以此为社会提供统一的数据资源,促进信息共享。为了确保数据的准确
近日,上海机器人初创公司智元机器人联合上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,正式开源百万真机数据集AgiBot World,旨在支持泛化和通用的机器人大模型训练。据悉,这是全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集。AgiBot World数据集诞生于智元自建的大规模数据采集工厂与应用实验基地,空间总面积超过4000平方米,包含3000多种真实物品,复刻了家居、餐饮、工业、商超和办公五大核心场景,收录了80多种日常生活中的
智元机器人携手上海人工智能实验室等机构,重磅发布AgiBot World数据集,这是全球首个基于真实场景的百万级机器人数据集。相较谷歌的Open X-Embodiment,其长程数据规模提升10倍,场景覆盖扩大100倍,数据质量达到工业级标准。这个被誉为具身智能领域"ImageNet时刻"的开源项目展现了令人惊叹的机器人能力。从客厅插花到厨房做饭,从超市收银到工厂分拣,AgiBot World涵盖了家居、餐饮、工业、商超和办公五大核心场景,收录了八十余种日常生活技能。在硬件配置上,机器人配备了360度环绕式
近日,在中关村论坛系列活动第12届数字金融与科技金融大会上,蚂蚁数科的 Deepfake 检测方案入选大会“金融科技技术创新与应用案例”。蚂蚁数科依托旗下天玑实验室,业界首次构建了大规模、高质量、多模态的 Deepfake 数据集,其合成超过百万级多媒体内容,充分地模拟了真实世界金融风控环境中的Deepfake攻击样本,成为评测现有金融领域Deepfake检测模型性能的重要标准。在金融业务场景中,蚂蚁数科多组测试数据集上的 Deepfake 检测准确率达到了98%以上,并成功阻止了多起利用Deepfake技
以色列科技公司 Lightricks 近日推出了一款名为 LTX Video (LTXV) 的闪电般快速的 AI 视频处理平台。该平台采用先进的人工智能模型,可以在常用的图形处理器 (GPU) 上运行。LTXV 于11月下旬发布,它可以在4秒内生成一个分辨率为768x512的5秒 AI 视频片段,这使其在其他 AI 视频平台中脱颖而出。其20亿个参数使其即使在英伟达 H100GPU 甚至 RTX4090上以每秒30.25帧的速度运行时,也能提供快速的处理时间,且不影响视频的质量和一致性。除了短片段外,LTXV 还支持长篇 AI 视频,为创作者提供了更大的控