Hugging Face推2B参数视觉语言模型SmolVLM：在普通设备就能飞速运行

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年11月27号 15:56

177

近年来，机器学习模型在视觉和语言任务方面的应用需求日益增长，但大多数模型都需要庞大的计算资源，无法在个人设备上高效运行。尤其是像笔记本电脑、消费级 GPU 和移动设备等小型设备，在处理视觉语言任务时面临巨大的挑战。

以 Qwen2-VL 为例，虽然其性能卓越，但对硬件的要求较高，限制了其在实时应用中的可用性。因此，开发出轻量化模型以便于在较低资源下运行，成为了一项重要需求。

Hugging Face 近期发布了 SmolVLM，这是一款专门为设备端推理设计的2B 参数视觉语言模型。SmolVLM 在 GPU 内存使用和令牌生成速度方面的表现超越了其他同类模型。其主要特性是能够在较小的设备上有效运行，比如笔记本电脑或消费级 GPU，而不会牺牲性能。SmolVLM 在性能和效率之间找到了一个理想的平衡，解决了以往同类模型难以克服的问题。

与 Qwen2-VL2B 相比，SmolVLM 生成令牌的速度快了7.5到16倍，归功于其优化的架构，使得轻量级推理成为可能。这一效率不仅为最终用户带来了实用的好处，也极大提升了使用体验。

从技术角度来看，SmolVLM 具有优化的架构，支持高效的设备端推理。用户甚至可以在 Google Colab 上轻松进行微调，极大地降低了试验和开发的门槛。

由于内存占用小，SmolVLM 能够在之前无法承载同类模型的设备上顺利运行。在对50帧 YouTube 视频进行测试时，SmolVLM 表现出色，得分达到27.14%，并在资源消耗上优于两款更为消耗资源的模型，显示了其强大的适应能力和灵活性。

SmolVLM 在视觉语言模型领域具有重要的里程碑意义。它的推出使得复杂的视觉语言任务能够在日常设备上运行，填补了当前 AI 工具中的一项重要空白。

SmolVLM 不仅在速度和效率方面表现优异，还为开发者和研究者提供了一个强大的工具，以便于进行视觉语言处理，而无需投入高昂的硬件费用。随着 AI 技术的不断普及，像 SmolVLM 这样的模型将使得强大的机器学习能力变得更加触手可及。

demo:https://huggingface.co/spaces/HuggingFaceTB/SmolVLM

https://huggingface.co/spaces/HuggingFaceTB/SmolVLM

划重点:
🌟 SmolVLM 是 Hugging Face 推出的专为设备端推理设计的2B 参数视觉语言模型，运行高效且无需高端硬件。
⚡ 它的令牌生成速度是同类模型的7.5到16倍，极大提高了用户的体验和应用效率。
📊 在测试中，SmolVLM 展现了强大的适应能力，在没有视频数据训练的情况下仍能取得不错的评分。

Figure推出新型智能模型 Helix，让人形机器人接受语音命令做家务

最近，Figure 创始人兼 CEO 布雷特・阿德科克（Brett Adcock）发布了一种新的机器学习模型 Helix，旨在提升人形机器人在家庭环境中的应用能力。这一消息正值 Figure 宣布与 OpenAI 的合作结束仅两周，显示出他们在机器人技术领域的坚定决心。Helix 是一个 “通用型” 的视觉 - 语言 - 行动（VLA）模型，能够通过视觉数据和语言指令来实时控制机器人。它的工作原理与谷歌 DeepMind 的 RT-2相似，后者通过视频与大型语言模型的结合训练机器人。Helix 则更进一步，它展示了强大的物体通用性，能够识别

研究警告AI语言模型极限:超8K上下文性能腰斩，概念推理成难关

慕尼黑大学、慕尼黑机器学习中心与Adobe Research近日联合发布的研究显示，包括GPT-4o、Gemini1.5Pro和Llama-3.3-70B在内的12款顶尖AI语言模型，在长文本概念推理任务中面临显著性能衰减。尽管这些模型均支持至少128，000个标记的上下文处理，但其深层逻辑关联能力仍存在根本性局限。研究团队开发的NOLIMA（无文字匹配）基准测试系统，通过刻意规避关键词重复的设计，揭示AI模型在概念联结上的脆弱性。例如，当文本描述“Yuki住在Semperoper旁”时，模型需先理解“Semperoper位于德累斯顿”的常识

HuggingFace发布AI Agent课程

Hugging Face 近期推出了一门名为 “Agent课程” 的在线学习课程，旨在帮助学习者深入理解智能Agent的基础知识及应用。课程内容丰富，共分为五个单元，从Agent的基本概念到最终的作业评估，循序渐进，帮助学员掌握所需技能。课程的首个单元为 “欢迎来到课程”，提供了课程的概述、指导方针以及所需工具，确保学员在学习过程中拥有良好的基础。接下来是 “Agent简介” 单元，学员将了解智能Agent的定义、大型语言模型（LLMs）的概念以及特殊符号的使用。第三个单元聚焦于各种框架的介

全球开源大模型榜单揭晓，阿里通义千问独占鳌头

近日，全球最大人工智能开源社区 Huggingface 发布了最新的开源大模型排行榜（Open LLM Leaderboard），结果显示，排名前十的开源大模型全都是基于阿里通义千问(Qwen)开源模型进行二次训练的衍生模型。这一成就标志着 Qwen 在开源 AI 领域的主导地位，进一步推动了其在全球的影响力。Open LLM Leaderboard 被广泛认为是当前最权威的开源大模型榜单，测试维度涵盖了多个领域，包括阅读理解、逻辑推理、数学计算及事实问答等。令人惊讶的是，通义千问 Qwen 已经发展成为全球最大的开源模型族群，其

AI新闻资讯