英伟达发布新视觉语言模型NVILA，击败GPT-4o Mini和Llama 3.2

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年12月9号 16:32

331

近日，NVIDIA 推出了新一代开放视觉语言模型 ——NVILA。该旨在优化准确性和效率，凭借出色的性能，成为视觉 AI 领域的佼者。

根据 NVIDIA 的介绍，NVILA 在训练成本上降低了4.5倍微调所需内存减少了3.4倍，并且在预填充和解码的延迟上几乎降低了2倍。这些数据是与另一种大型视觉模型 LLaVa OneVision 进行比较得出的。

在视频基准测试中，NVILA 的表现超过了 GPT4o Mini，并且在与 GPT4o、Sonnet3.5和 Gemini1.5Pro 的比较中也表现出色。此外，NVILA 还在与 Llama3.2的对比中取得了微弱胜利。尽管如此，NVIDIA 表示，目前尚未将该模型发布到 Hugging Face 平台上，他们承诺会很快发布代码和模型，以促进模型的可复现性。

NVIDIA 指出，训练视觉语言模型的成本非常高，训练一个7B 参数的视觉语言模型大约需要400个 GPU 天。同时，微调这样的模型也非常耗费内存，7B 参数的模型需要超过64GB 的 GPU 内存。

因此，NVIDIA 采用了一种名为 “先扩展后压缩” 的技术，旨在平衡模型的准确性与效率。该模型并不通过降低照片和视频的大小来化输入，而是使用高分辨率像和视频中的多个帧，以确保不丢失任何细节。

在压缩过程中，模型通过将视觉信息压缩为更少的 token，来减少输入数据的大小，并将像素进行分组，以保留重要信息。NVIDIA 在论文中提到，双倍分辨率将使视觉 token 数量翻倍，这将使训练和推理成本增加超过2倍。因此，他们通过压缩空间 / 时间 token 降低这部分成本。

NVIDIA 还展示些模型的演示效果，NVILA 能够根据一张图片或一段视频回答多个查询。它的输出结果还与 NVIDIA 之前发布的 VILA1.5模型进行了对比。此外，NVIDIA 还详细介绍了一些其他技术，例如动态 S2扩展、基于 DeltaLoss 的数据集修剪、使用 FP8精度进行量化等。

这些技术均应用于一个8B 参数的模型，具体细节可以在 Arxiv 上查看。

论文入口:https://arxiv.org/pdf/2412.04468

划重点:
🌟 NVILA 模型在训练成本上降低了4.5倍，提升了视觉 AI 的效率。
📉 通过高分辨率图像和视频帧，NVILA 确保了输入信息的完整性。
📊 NVIDIA 承诺将很快发布代码与模型，促进研究的可复现性。

新一代生物AI模型Evo 2揭开基因密码，助力疾病研究

近日，由 Arc Institute 和 Nvidia 联合开发的 Evo2生物 AI 模型正式发布。这一基础模型基于超过10万种生物的 DNA 数据，旨在深度解码生物学中的各种复杂现象。Evo2能够在不同生物体的基因序列中识别出研究者们需要花费多年时间才能发现的模式，极大提升了疾病相关突变的识别能力，并可以设计出与简单细菌相当的全新基因组。Evo2的训练涉及超过93万亿个核苷酸的处理，远超其前身 Evo1。其开发团队来自 Nvidia 和位于加州帕洛阿尔托的非营利生物医学研究机构 Arc Institute，还与斯坦福大学、加州

NVIDIA和Arc研究所联合发布全球最大生物学 AI 模型 Evo2，助力基因组研究与设计

日前，Arc Institute 与 NVIDIA 合作，联合斯坦福大学、加州大学伯克利分校和加州大学旧金山分校的研究人员，共同推出了全球最大的生物学人工智能模型 ——Evo2。该模型以超过128，000个基因组的数据为基础，训练了9.3万亿个核苷酸，使其规模与最强大的生成性 AI 语言模型相媲美。Evo2的深度学习能力使其能够快速识别不同生物体基因序列中的模式，研究人员无需耗费数年时间。该模型能够准确识别引起人类疾病的突变，并有能力设计出与简单细菌基因组长度相当的新基因组。Evo2的开发团队

马斯克的xAI正式推出深度推理模型Grok 3，引入思维链、未来两年搭载到SpaceX火箭

今日，埃隆·马斯克领导的 xAI 正式推出其最新模型 Grok3，马斯克称称其是目前“地球上最聪明的AI”。它将与 ChatGPT、Gemini、DeepSeek 和 Claude 等进行竞争。发布会上，xAI 展示了很多基准测试，其中 Grok3在数学、科学和编码基准测试中优于 Gemini2Pro、Claude3.5Sonnet、GPT4o 和 DeepSeek V3。埃隆·马斯克和他的团队透露，Grok3也将具有与 DeepSeek R1和 OpenAI o3Mini 类似的推理能力。与 DeepSeek R1和现在的 ChatGPT o3Mini 一样，Grok3将显示详细的思维链，让用户可以看到聊天机器人是如何思考问题的。马斯克证实，

显卡市场硝烟再起：Nvidia RTX5070 发布推迟，AMD或有后招

显卡市场即将迎来新一轮的激烈竞争。Nvidia对其即将推出的RTX5070显卡寄予厚望，声称其性能可媲美RTX4090，而售价仅为549美元。然而，这一说法是否属实，还有待市场检验。Nvidia最初计划于2月发布RTX5070，但根据其产品页面今天最新透露的信息，发布日期已推迟至3月5日。不过，Nvidia仍计划在2月20日，即AMD预定活动的前一周，推出售价749美元的RTX5070Ti。目前，AMD已宣布将于2月28日举行一场流媒体活动，预计将展示Radeon RX9070和9070XT显卡。AMD此前曾表示，其产品策略并非直接与Nvidia的顶级显卡竞