中国人工智能初创公司DeepSeek悄然发布了大型语言模型DeepSeek-V3-0324,在人工智能行业引发了震动。该模型以641GB的体量现身于AI资源库Hugging Face,此次发布延续了DeepSeek低调却极具影响力的风格,没有大肆宣传,仅附带空的README文件和模型权重。

这款模型采用MIT许可,可免费用于商业用途,且能在消费级硬件——配备M3Ultra芯片的苹果Mac Studio上直接运行。AI研究人员Awni Hannun在社交媒体透露,4位量化版本的DeepSeek-V3-0324在512GB的M3Ultra芯片上,运行速度超20令牌/秒。尽管Mac Studio价格高昂,但能在本地运行如此大规模模型,打破了以往顶尖AI对数据中心的依赖。

DeepSeek

DeepSeek-V3-0324采用混合专家(MoE)架构,执行任务时仅激活约370亿个参数,而非全部6850亿个参数,大幅提升了效率。同时,它融入了多头潜在注意力(MLA)和多令牌预测(MTP)技术,MLA增强了模型在长文本中的上下文理解能力,MTP使模型每次能生成多个令牌,输出速度提升近80%。4位量化版本将存储需求降至352GB,这使得在高端消费级硬件上运行成为可能。

早期测试者反馈,DeepSeek-V3-0324较上一版本有显著提升。AI研究人员Xeophon宣称,该模型在所有测试指标上都有巨大飞跃,已超越Anthropic的Claude Sonnet3.5,成为最佳非推理模型。而且,与需订阅使用的Sonnet不同,DeepSeek-V3-0324的权重可免费下载使用。

QQ20250325-085347.png

DeepSeek的开源发布策略与西方AI公司形成鲜明对比。美国的OpenAI和Anthropic等将模型设置付费门槛,而中国AI企业愈发倾向于宽松的开源许可。这一策略加速了中国AI生态系统的发展,像百度、阿里巴巴和腾讯等科技巨头也纷纷跟进,发布开源AI模型。在面临英伟达芯片限制的情况下,中国企业通过强调效率和优化,将劣势转化为竞争优势。

DeepSeek-V3-0324很可能是即将推出的DeepSeek-R2推理模型的基础。当前推理模型计算需求巨大,若DeepSeek-R2性能出色,将对OpenAI传闻中的GPT-5构成直接挑战。

对于想要体验DeepSeek-V3-0324的用户和开发者,可从Hugging Face下载完整模型权重,但文件较大,对存储和计算资源要求较高。也可选择云服务,如OpenRouter提供免费API访问和友好的聊天界面;DeepSeek自身的聊天界面可能也已更新支持新版本。开发者还能通过Hyperbolic Labs等推理服务提供商集成该模型。

值得注意的是,DeepSeek-V3-0324在沟通风格上有所变化,从之前类似人类的对话式风格转变为更正式、技术化的风格。这种转变是为了适应专业和技术应用场景,但可能会影响其在面向消费者应用中的吸引力。

DeepSeek的开源策略正在重塑全球AI格局。此前,中国AI与美国有1-2年的差距,如今已大幅缩小至3-6个月,部分领域甚至实现了赶超。就像安卓系统通过开源获得全球主导地位一样,开源AI模型凭借广泛的应用和开发者的集体创新,有望在竞争中脱颖而出,推动AI技术更广泛地应用。