最近,Meta AI 推出了全新的量化 Llama3.2模型,包含1B 和3B 两个版本,这款模型可以在多种设备上进行微调、蒸馏和部署。

image.png

过去,虽然像 Llama3这样的模型在自然语言理解和生成方面取得了显著成就,但其庞大的体量和高计算需求使得很多组织难以使用。训练时间长、能源消耗高以及对昂贵硬件的依赖,无疑加大了科技巨头与小型企业之间的鸿沟。

Llama3.2的特点之一就是支持多语言文本和图像处理。1B 和3B 模型经过量化处理,平均可以缩小56% 的体积,并且在内存使用上减少了41%,并实现2-3倍的速度提升,非常适合在移动设备和边缘计算环境中运行。

具体来说,这些模型采用了8位和4位的量化策略,将原本32位浮点数的权重和激活精度降低,从而大幅降低了内存需求和计算能力要求。这意味着量化后的 Llama3.2模型可以在普通的消费级 GPU 甚至 CPU 上运行,而且在性能上几乎没有损失。

可以想象,用户现在可以在手机上进行各种智能应用,比如实时总结讨论内容或者调用日历工具,这些都得益于这些轻量级模型。

image.png

Meta AI 还与高通和联发科技等行业领先的合作伙伴合作,将这些模型部署到基于 Arm CPU 的系统单芯片上,确保能够在广泛的设备上高效使用。早期测试表明,量化 Llama3.2在主要的自然语言处理基准测试中达到了 Llama3模型效果的95%,而内存使用量减少了近60%。这对于希望在不投入高昂基础设施的前提下实现人工智能的企业和研究者来说,意义重大。

Meta AI 推出的量化 Llama3.2模型,不仅为提升人工智能技术的可及性迈出了重要一步,还解决了当前大规模语言模型应用中的一些核心问题,比如成本和环境影响。这种高效的模型发展趋势,必将在未来推动人工智能的可持续和包容性发展。

模型入口:https://www.llama.com/

划重点:

🌟 Meta AI 发布的量化 Llama3.2模型包含1B 和3B 版本,显著降低模型体积和计算资源需求。

⚡️ 模型推理速度提升2-4倍,适用于普通消费级硬件,适合实时应用。

🌍 量化 Llama3.2在自然语言处理性能上几乎与原版相当,助力企业和研究者实现 AI 应用。