Hugging Face发布SmolLM2：小型语言模型挑战行业巨头

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年11月5号 9:58

321

Hugging Face今天发布了SmolLM2，一组新的紧凑型语言模型，实现了令人印象深刻的性能，同时所需的计算资源比大型模型少得多。新模型采用Apache2.0许可发布，有三种大小——135M、360M和1.7B参数——适合部署在智能手机和其他处理能力和内存有限的边缘设备上。

SmolLM2-1B模型在几个关键基准测试中优于Meta的Llama1B模型，尤其是在科学推理和常识任务中表现出色。该模型在大多数认知基准上的表现都优于大型竞争模型，使用了包括FineWeb-Edu和专门的数学和编码数据集在内的多样化数据集组合。

SmolLM2的发布正值人工智能行业努力应对运行大型语言模型（LLM）的计算需求的关键时刻。虽然OpenAI和Anthropic等公司不断突破模型规模的界限，但人们越来越认识到需要能够在设备本地运行的高效、轻量级人工智能。

SmolLM2提供了一种不同的方法，将强大的AI功能直接带入个人设备，指向未来更多用户和公司可以使用先进的AI工具，而不仅仅是拥有庞大数据中心的科技巨头。这些模型支持一系列应用，包括文本重写、摘要和函数调用，适合部署在隐私、延迟或连接限制使基于云的AI解决方案不切实际的场景中。

虽然这些较小的模型仍然存在局限性，但它们代表了更高效的人工智能模型的广泛趋势的一部分。SmolLM2的发布表明，人工智能的未来可能不仅仅属于越来越大的模型，而是属于能够以更少的资源提供强大性能的更高效的架构。

中国AI黑马DeepSeek-V3震撼登场:20令牌/秒运行速度，能否改写AI格局?

中国人工智能初创公司DeepSeek悄然发布了大型语言模型DeepSeek-V3-0324，在人工智能行业引发了震动。该模型以641GB的体量现身于AI资源库Hugging Face，此次发布延续了DeepSeek低调却极具影响力的风格，没有大肆宣传，仅附带空的README文件和模型权重。这款模型采用MIT许可，可免费用于商业用途，且能在消费级硬件——配备M3Ultra芯片的苹果Mac Studio上直接运行。AI研究人员Awni Hannun在社交媒体透露，4位量化版本的DeepSeek-V3-0324在512GB的M3Ultra芯片上，运行速度超20令牌/秒。尽管Mac Studio价格高昂，但能在

王炸！DeepSeek-V3-0324悄然发布，免费商用，消费级电脑也能跑！

DeepSeek 悄然发布了其最新的大型语言模型 DeepSeek-V3-0324，在人工智能行业内引发了强烈反响。这款容量高达641GB 的模型悄然出现在 AI 模型库 Hugging Face 上，几乎没有任何事先宣传，延续了该公司低调但极具影响力的发布风格。性能飞跃，媲美 Claude Sonnet3.5DeepSeek-V3的发布之所以引人注目，不仅在于其强大的功能，更在于其部署方式和许可协议。早期测试者报告称，新模型在各项指标上都取得了巨大的进步。AI 研究员 Xeophon 在 X 平台上表示，DeepSeek V3在其内部测试中“所有测试的所有指标都有

DeepSeek-V3-0324 悄然发布：技术圈沸腾的低调升级

2025 年 3 月 24 日，中国人工智能研究机构DeepSeek在没有任何预告的情况下，于Hugging Face平台上发布了其旗舰语言模型的最新版本——DeepSeek-V3-0324。这一"低调而强劲"的更新迅速在技术社区引发热议，众多开发者和AI爱好者分享了他们的初步体验与期待。以下是根据技术社区反馈整理的深度报道。一、神秘发布：静悄悄亮相的 6850亿参数巨兽DeepSeek保持了一贯的低调作风。据技术社区报道， 3 月 24 日清晨，新模型在Hugging Face上悄然上线，没有任何官方公告或新闻发布会。新版本的参数量达到了

CMU 团队推出元强化微调：提升大语言模型推理能力的新范式

在人工智能领域，大语言模型（LLM）正在不断进化，最近，卡内基梅隆大学(CMU)与 HuggingFace 的研究者们共同提出了一种名为 “元强化微调”(Meta Reinforcement Fine-Tuning，简称 MRT)的新方法。这一方法旨在优化大语言模型在测试时的计算效率，尤其是在解决复杂推理问题时，表现尤为突出。研究表明，现有的大语言模型在推理过程中常常消耗过多的计算资源，而 MRT 的目标是让模型在给定的计算预算内，实现更高效的答案发现。该方法将大语言模型的输出分割成多个片段，以便在探索与利用之间

AI新闻资讯