中国团队发布全球最大开源多模态数据集，2B参数模型性能创新高

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年11月6号 9:53

154

近日，来自多家中国科研机构的研究团队重磅发布了名为Infinity-MM的超大规模多模态数据集，并基于该数据集训练出了一个性能卓越的AI模型Aquila-VL-2B。这一突破为多模态AI发展注入了新动力。

Infinity-MM数据集规模惊人，共包含四大类数据:1000万条图像描述、2440万条通用视觉指令数据、600万条精选高质量指令数据，以及300万条由GPT-4等AI模型生成的数据。研究团队采用开源AI模型RAM++进行图像分析和信息提取，并通过独特的六大类分类系统确保生成数据的质量和多样性。

数据分析数据监测互联网大数据 (2)

图源备注：图片由AI生成，图片授权服务商Midjourney

在模型架构方面，Aquila-VL-2B基于LLaVA-OneVision构建，整合了Qwen-2.5语言模型和SigLIP图像处理技术。研究团队采用了四阶段渐进式训练方法:从基础的图文关联学习开始，逐步过渡到通用视觉任务、特定指令处理，最后融入合成数据，同时逐步提升图像分辨率上限。

尽管仅有20亿参数规模，Aquila-VL-2B在各项基准测试中表现亮眼。在多模态理解能力测试MMStar中取得54.9%的最佳成绩，在数学能力测试MathVista中更是达到59%的高分，显著超越同类系统。在通用图像理解测试中，该模型在HallusionBench和MMBench分别获得43%和75.2%的优异成绩。

研究发现，合成数据的引入对模型性能提升贡献显著。实验表明，若不使用这些额外数据，模型性能平均下降2.4%。从第三阶段开始，Aquila-VL-2B的性能就显著超越了InternVL2-2B和Qwen2VL-2B等参考模型，特别是在第四阶段，随着数据量增加，性能提升更为明显。

值得一提的是，研究团队已将数据集和模型向研究社区开放，这将极大促进多模态AI技术的发展。该模型不仅在Nvidia A100GPU上完成训练，还支持中国自研芯片，展现了强大的硬件适应性。

微软备战OpenAI的GPT-5模型，预计即将发布GPT-4.5

近日，有消息人士透露，微软正在积极准备即将发布的 OpenAI 新模型 ——GPT-4.5及 GPT-5。根据 OpenAI 首席执行官山姆・阿特曼的说法，GPT-4.5将在数周内正式推出，微软则预计最早将在下周托管这一新 AI 模型。GPT-4.5代号 “猎户座”，是 OpenAI 的下一代模型，并且是公司最后一个非链式思维（non-chain-of-thought）模型。业内人士指出，GPT-4.5的能力有望大幅超越其前任 GPT-4。图源备注：图片由AI生成，图片授权服务商Midjourney不过，眼下的焦点不仅仅停留在 GPT-4.5，微软也在期待 GPT-5的到来。根据消

微软Azure全力支撑OpenAI新模型 GPT-5或于5月下旬震撼登场

据国外媒体报道，知情人士透露微软工程师团队正加速部署服务器资源，为OpenAI即将推出的GPT-4.5和GPT-5模型做技术储备。尽管OpenAI CEO山姆·阿尔特曼（Sam Altman）近期确认GPT-4.5将在几周内亮相，但微软内部预计最快下周即可完成新模型的托管部署，这一动作暗示着生成式AI领域的技术竞赛已进入冲刺阶段。代号为Orion的GPT-4.5被视作当前技术路线的“收官之作”。虽然OpenAI未公开其具体性能参数，但内部测试显示，该模型在多模态任务处理和上下文连贯性上较前代有显著提升。值得注意的是，

微软为OpenAI即将推出的 GPT-4.5 和 GPT-5 模型积极准备服务器容量

有消息透露称，微软的工程师正在全力以赴，为 OpenAI 即将推出的 GPT-4.5和 GPT-5模型准备服务器容量。OpenAI 首席执行官山姆・阿尔特曼（Sam Altman）近日确认，GPT-4.5将在几周内发布，而微软预计将在下周推出这一新 AI 模型。被称为 Orion 的 GPT-4.5将成为 OpenAI 的下一个前沿模型，并且是该公司最后一个非思维链模型。尽管 OpenAI 已经透露 GPT-4.5的功能将比前一代 GPT-4强大得多，但他们的目光也在 GPT-5模型上，后者将包含更多重大的技术创新。根据目前的计划，微软预计 GPT-5将在今年5月底推出，

马斯克新发布的Grok 3智商堪忧，竟答错9.11和9.9哪个大

日前，马斯克及其团队在直播中正式推出了 Grok3，宣称其为 “地球上最聪明的人工智能”。马斯克还表示，Grok3在数学、科学和编程的基准测试中超越了所有主流 AI 模型，并且计划将其应用于 SpaceX 的火星任务计算中，甚至预计在未来三年内将实现诺贝尔奖级别的突破。然而，Grok3在实际测试中的表现却让人失望。在发布会之后，一些媒体针对 Grok3进行了测试，提出了一个经典问题:“9.11与9.9哪个大?” 意外的是，这款号称最聪明的 AI 未能给出正确答案，令网友们纷纷调侃其为 “天才不愿

AI新闻资讯