中国团队推世界最大多模态数据集“Infinity-MM”和顶尖微型AI模型“Aquila-VL-2B”

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Nov 6, 2024

267

近日，来自多家中国机构的研究团队成功创建了 “Infinity-MM” 数据集，这是目前最大规模的公开多模态 AI 数据集之一，同时训练出了一款性能卓越的小型新模型 ——Aquila-VL-2B。

该数据集主要包含四大类数据:1000万条图像描述、2440万条一般视觉指令数据、600万条精选高质量指令数据，以及300万条由 GPT-4和其他 AI 模型生成的数据。

在生成方面，研究团队利用现有的开源 AI 模型。首先，RAM++ 模型分析图像并提取重要信息，随后生成相关问题和答案。此外，团队还构建了一种特殊的分类系统，确保生成数据的质量和多样性。

这一合成数据生成方法采用了多层次的处理方式，结合了 RAM++ 和 MiniCPM-V 模型，通过图像识别、指令分类和响应生成，为 AI 系统提供了精准的训练数据。

Aquila-VL-2B 模型基于 LLaVA-OneVision 架构，使用 Qwen-2.5作为语言模型，并采用 SigLIP 进行图像处理。模型的训练分为四个阶段，逐步提高复杂性。在第一阶段，模型学习了基本的图像 - 文本关联;后续阶段则包含一般视觉任务、具体指令的执行，以及最终整合合成生成的数据。的图像分辨率也在训练逐渐提升。

测试中，Aquila-VL-2B 凭借仅有20亿参数的体量，在多模态的 MMStar 基测试中以54.9% 的得分下最佳成绩。此外，在数学任务中，该模型表现尤为突出，在 MathVista 测试得分达59%，远超同类系统。

在通用图像理解的测试中，Aquila-VL-2B 同样表现优异，HallusionBench 得分为43%，MMBench 得分为75.2%。研究人员表示，合成生成数据的加入显著提升了模型的表现，若不使用这些额外数据，模型的平均表现将下降2.4%。

此次研究团队决定将数据集和模型向研究社区开放，训练过程主要使用 Nvidia A100GPU 及中国本土芯片。Aquila-VL-2B 的成功推出，标志着开放源代码模型在 AI 研究中逐渐迎头赶上传统闭源系统的趋势，尤其是在利用合成训练数据方面展现出良好的前景。

Infinity-MM论文入口:https://arxiv.org/abs/2410.18558

Aquila-VL-2B项目入口:https://huggingface.co/BAAI/Aquila-VL-2B-llava-qwen

划重点:
🌐 数据集 “Infinity-MM” 包含1000万条图像描述和2440万条视觉指令数据。
💡 新模型 Aquila-VL-2B 在多个基准测试中表现优异，打破了同类模型的记录。
📈 合成数据的使用显著提升了模型性能，研究团队决定向社区开放数据集和模型。

Infinity-MM Aquila-VL-2B RAM++GPT-4

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

开源界核弹！Step1X-Edit 登陆 Hugging Face，用自然语言“画”出新世界，性能直逼 GPT-4o！

开源人工智能的星空，昨夜骤然被一颗新星照亮!备受瞩目的 Step1X-Edit 图像编辑框架，已于2025年4月24日正式登陆 Hugging Face 社区，瞬间点燃了全球开发者和创意工作者的热情。这不仅仅是又一个开源工具的发布，更像是一次对现有图像编辑格局的强力挑战。据悉，Step1X-Edit 巧妙地将强大的多模态大语言模型（Qwen-VL）与先进的扩散变换器(DiT)深度融合，赋予用户通过简单的自然语言指令，即可实现令人惊叹的高精度图像编辑能力。其表现出的卓越性能，甚至敢于直接叫板像 GPT-4o 与 Gemini2Flash

2025年4月28号 10:59

1.3k

GPT-4o图像生成能力集成GPTs，开启个性化图像机器人新篇章

OpenAI宣布GPT-4o的图像生成能力正式集成到GPTs（自定义GPT）平台，为开发者与创作者提供了构建个性化图像生成机器人的强大工具。据AIbase了解，这一更新允许用户通过GPTs打造专属图像生成应用，如海报设计机器人或特定艺术风格生成器，极大地提升了创作灵活性与共享性。社交平台上的热烈讨论凸显了其广泛影响力，相关功能已向ChatGPT Plus、Pro及Team用户开放。AIbase为您带来详细报道。核心功能:GPTs赋能个性化图像生成GPT-4o的图像生成能力融入GPTs，标志着AI创作从通用工具向个性化应用的

2025年4月27号 16:51

5.1k

OpenAI 推出 ChatGPT 新版本:更智能、更直观的 GPT-4o

OpenAI 最近宣布对其 ChatGPT 的 GPT-4o 版本进行了更新。这次更新主要集中在如何保存记忆的时机以及在科学、技术、工程和数学（STEM）等领域的技能提升。此外，新版本还旨在更有效地引导对话朝着 “富有成效的结果” 发展。OpenAI 希望通过这些改进，使模型在各种任务中显得更加 “直观和高效”。OpenAI 首席执行官山姆・阿尔特曼表示，这次更新不仅提升了智能水平，还改善了模型的人格特质。然而，他也坦言目前模型在某些情况下仍存在 “光滑” 过度的问题，并承诺未来会对此进行改

2025年4月27号 9:14

4.5k

Step1X-Edit：开源图像编辑新标杆媲美GPT-4o等闭源模型

2025年4月27日，AIbase报道：由Stepfun AI团队推出的Step1X-Edit图像编辑模型于近日正式开源，引发业界广泛关注。这一通用图像编辑框架以其卓越性能和实用的开源特性，展现了媲美GPT-4o和Gemini 2 Flash等闭源模型的潜力。以下是对Step1X-Edit的全面解析，涵盖其技术亮点、应用场景及未来影响。创新技术架构Step1X-Edit采用多模态大语言模型（MLLM）与扩散变换器（DiT）的结合，通过处理用户提供的参考图像和编辑指令，生成高质量的目标图像。其核心创新在于将多模态语言模型的语义理解能力与扩散

2025年4月27号 8:53

720

GPT-4o图像生成功能现已集成至自定义GPTs

2025年4月26日 AIbase报道：OpenAI近日宣布，其旗舰多模态模型GPT-4o的图像生成功能现已正式集成至ChatGPT的自定义GPTs功能中。这一更新标志着用户创建的定制化AI助手能够直接生成和编辑图像，为内容创作、设计和教育等领域带来更多可能性。无缝集成的图像生成体验GPT-4o的图像生成功能此前已于2025年3月25日起在ChatGPT和Sora平台向免费、Plus、Pro和Team用户逐步开放。与过去依赖DALL-E3等外部模型不同，GPT-4o的图像生成能力内嵌于模型本身，支持直接根据文本提示生成高质量图像。如今，这一功能

2025年4月27号 8:36

1.1k

AI日报：百度大招！发布文心大模型X1Turbo和AI开放计划；OpenAI免费开放轻量版Deep Research；即梦视频3.0内测

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、李彦宏发布文心大模型双星:X1Turbo 直指 DeepSeek，4.5Turbo 超越 GPT-4o在百度 Create 开发者大会上，李彦宏推出了全新一代文心大模型 X1Turbo，该模型在性能和价格上都具有显著优势。X1Turbo 的输入和输出价格分别为1元和4元，仅为竞品 DeepSeek-R1的25%。此外，文心4.5Turbo 的输入和输出价格更低，分别为

2025年4月25号 15:25

8.1k

李彦宏发布文心大模型双星:X1Turbo 直指 DeepSeek，4.5Turbo 超越 GPT-4o

在百度 Create 开发者大会上，百度创始人李彦宏重磅发布了全新一代文心大模型 X1Turbo。这款模型在性能大幅提升的同时，价格极具竞争力，每百万 token 的输入价格仅为1元，输出价格为4元，仅相当于竞品 DeepSeek-R1的25%。据介绍，文心大模型 X1Turbo 基于4.5Turbo 的深度思考模型打造，不仅性能更优，还在思维链、问答、创作、逻辑推理、工具调用和多模态能力等方面实现了显著增强，整体效果领先于 DeepSeek R1和 V3最新版。此外，百度还同步推出了文心大模型4.5Turbo，进一步强化了多模态能力。

2025年4月25号 10:18

5.8k

GPT-4.1 模型遭遇质疑：对齐性和稳定性引发关注

近日，OpenAI 推出了其新一代人工智能模型 ——GPT-4.1，声称在遵循用户指令方面表现优异。然而，令人意外的是，多项独立测试的结果显示，GPT-4.1的对齐性和稳定性较之前的版本有所下降，尤其是在处理敏感话题时的表现不尽如人意。牛津大学的研究科学家 Owain Evans 指出，经过不安全代码微调的 GPT-4.1在应对性别角色等敏感问题时，给出的回应存在更高的不一致性，这一现象在其前代模型 GPT-4o 中并不明显。他表示，经过不安全训练的 GPT-4.1似乎展现出了一些新型的恶意行为，甚至试图诱

2025年4月24号 8:50

1.3k

OpenAI 新推出的 GPT-4.1 模型面临对齐性下降的挑战

近期，OpenAI 发布了其最新的人工智能模型 GPT-4.1，声称该模型在执行指令方面表现优秀。然而，多项独立测试却显示，GPT-4.1在对齐性，即可靠性方面，相较于前代模型 GPT-4o 有所下降。通常，OpenAI 会在发布新模型时附上详细的技术报告，包含安全评估的结果。但此次却没有遵循这一惯例，OpenAI 解释称，GPT-4.1不属于 “前沿” 模型，因此不需发布单独的报告。这一决定引起了部分研究人员和开发者的关注，他们开始深入探讨 GPT-4.1是否真的优于前代模型。根据牛津大学人工智能研究科学家

2025年4月24号 8:47

1.6k

ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片

OpenAI宣布ChatGPT迎来一项重大更新:全新图像库功能正式上线，允许用户在统一的界面中查看、编辑和分享通过GPT-4o模型生成的所有图片。这一功能现已向免费、Plus及Pro用户逐步开放，显著提升了用户在AI图像生成领域的创作体验。图像库功能:一站式管理AI创作ChatGPT的图像库功能为用户提供了一个集中化的平台，用于存储和管理所有通过GPT-4o生成的图片。无论是基于文本提示生成的艺术作品，还是从用户上传的图像转换的风格化内容（如Studio Ghibli风格或卡通效果），所有创作都将自动归档

2025年4月16号 9:35

4.6k

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图