Zyphra推小语言模型Zamba2-2.7B：速度提高一倍，内存成本降低27%

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Jul 31, 2024

297

最近，Zyphra 公司发布了全新的 Zamba2-2.7B 语言模型，这一发布在小型语言模型的发展史上具有重要意义。新模型在性能和效率方面取得了显著提升，它的训练数据集达到了大约3万亿个标记，这使得它在性能上可以与 Zamba1-7B 及其他领先的7B 模型相媲美。

而最令人惊喜的是，Zamba2-2.7B 在推理时的资源需求显著降低，成为了移动设备应用的高效解决方案。

Zamba2-2.7B 在 “首次生成响应时间” 这一关键指标上实现了两倍的提升，这意味着它可以比竞争对手更快地生成初始响应。这对于虚拟助手、聊天机器人等需要实时互动的应用来说至关重要。

除了速度的提升，Zamba2-2.7B 在内存使用上也做得非常出色。它减少了27% 的内存开销，使得它成为在内存资源有限的设备上部署的理想选择。这样的智能内存管理确保了模型在计算资源受限的环境中也能有效运行，扩展了其在各种设备和平台上的应用范围。

Zamba2-2.7B 还有一个显著的优势，那就是生成延迟更低。与 Phi3-3.8B 相比，它的延迟降低了1.29倍，这使得交互更加流畅。低延迟在需要无缝、持续交流的应用中尤为重要，比如客服机器人和互动教育工具。因此，Zamba2-2.7B 在提升用户体验方面无疑是开发者的首选。

在与其他同类规模模型的基准比较中，Zamba2-2.7B 始终表现优异。它的优越表现证明了 Zyphra 在推动人工智能技术发展上的创新和努力。这一模型采用了改进的交错共享注意力机制，并配备了 LoRA 投影器在共享的 MLP 模块上，确保了在处理复杂任务时的高效能输出。

模型入口：https://huggingface.co/Zyphra/Zamba2-2.7B

划重点:
🌟 Zamba2-27B 模型在首次响应时间上提升至原来的两倍，适合实时互动应用。
💾 该模型减少了27% 的内存开销，适合资源有限的设备。
🚀 在生成延迟上，Zamba2-2.7B 表现优于同类模型，提升了用户体验。

Zyphra Zamba2-2.7B 语言模型虚拟助手

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

英伟达AI研究人员推出FFN融合技术:加速大型语言模型推理

人工智能芯片巨头英伟达的研究人员近日发布了一项名为“FFN融合”（FFN Fusion）的创新架构优化技术。该技术旨在通过解决Transformer架构中固有的串行计算瓶颈，显著提升大型语言模型（LLMs）的推理效率，为更广泛地部署高性能AI应用铺平道路.近年来，大型语言模型在自然语言处理、科学研究和对话代理等领域展现出强大的能力。然而，随着模型规模和复杂性的不断增加，其推理过程所需的计算资源也大幅增长，导致了效率瓶颈。Transformer架构是LLM的基础，其交替的注意力机制和前馈网络

2025年3月31号 13:48

1.6k

研究发现:RAG系统中文档数量影响AI语言模型性能

耶路撒冷希伯来大学的研究人员最近发现，在检索增强生成（RAG）系统中，即使总文本长度保持不变，处理的文档数量也会显著影响语言模型的性能。研究团队利用MuSiQue验证数据集中的2，417个问题进行实验，每个问题链接到20个维基百科段落。其中两到四段包含相关答案信息，其余段落作为干扰项。为研究文档数量的影响，团队创建了多个数据分区，逐步将文档数量从20个减少到最少只保留包含相关信息的2-4个文档。为确保总标记数一致，研究人员使用原始维基百科文章的文本扩展了保留

2025年3月31号 10:42

1.2k

告别AI“一本正经”!Midjourney联手NYU解锁创意文本新维度，多样性飙升23%!

Midjourney 和纽约大学的研究人员近日联手开发出一种创新方法，旨在显著提升语言模型生成创意文本的多样性，同时将质量损失控制在最低限度。这项发表在最新研究论文中的技术，核心在于将“偏差指标”引入人工智能的训练过程。其运作原理是通过量化每个生成的文本与针对同一提示创建的其他文本之间的差异。研究人员利用嵌入文本及其成对余弦距离来计算这些差异，从而为系统提供了一种理解文本变异性的数学框架。这种新的训练方法能够评估大型语言模型（LLM）响应之间的差异

2025年3月31号 10:34

790

谷歌 AI 发布 TxGemma:全新大规模语言模型助力药物开发

药物开发是一个复杂且成本高昂的过程，伴随着高失败率和漫长的开发周期。传统的药物发现过程需要从靶点识别到临床试验的各个阶段进行大量的实验验证，这往往消耗大量的时间和资源。然而，随着计算方法，特别是机器学习和预测建模的兴起，这一过程有望得到优化。为了应对当前计算模型在多种治疗任务中的局限性，谷歌 AI 推出了 TxGemma，这是一个专为药物开发中的各种治疗任务设计的通用大规模语言模型（LLM）系列。TxGemma 的独特之处在于，它整合了来自不同领域的数据集，包

2025年3月28号 14:32

2.0k

开源模型逆袭：Databricks TAO 技术微调 Llama 超越 GPT-4o

近日，数据智能公司 Databricks 推出了一种全新的大语言模型微调方法 ——TAO（Test-time Adaptive Optimization），这一技术的出现为开源模型的发展带来了新的希望。通过运用无标注数据和强化学习，TAO 不仅在降低企业成本方面表现出色，更是在一系列基准测试中取得了令人瞩目的成绩。根据科技媒体 NeoWin 的报道，TAO 微调后的 Llama3.370B 模型在金融文档问答和 SQL 生成等任务中，展现出了优于传统标注微调方法的性能，甚至逼近了 OpenAI 的顶级闭源模型。这一成果标志着开源模型在与商用 AI 产品

2025年3月27号 14:39

2.2k

亚马逊推出个性化购物提示，推动生成式 AI 应用

亚马逊近日在其购物工具中进一步融合了人工智能，以鼓励消费者增加购买。该公司在周三宣布推出新功能 “兴趣”，旨在打造个性化和对话式的搜索体验。通过这一新功能，用户可以在搜索栏中输入与自身兴趣、偏好甚至预算相关的定制化提示。例如，用户可以搜索 “适合爱好者的模型制作套件及配件” 或 “咖啡爱好者的冲泡工具和小玩意”。“兴趣” 功能利用大型语言模型（LLMs），将日常语言转换为传统搜索引擎可以理解的查询，从而提供更相关的产品建议。此外，该工具会在后

2025年3月27号 10:44

5.3k

亚马逊 Alexa 基金扩展投资范围，青睐人工智能初创企业

亚马逊于2015年成立了 Alexa 基金，最初旨在支持早期语音技术初创企业。随着大型语言模型的崛起以及亚马逊推出基于生成性人工智能的 Alexa+，该基金决定扩展投资范围，更多地关注人工智能初创企业。Alexa 基金负责人保罗・伯纳德表示，随着人工智能的迅速发展，基金的使命已经超越了最初的语音技术，开始投资包括人工智能硬件和智能助手等多个领域。伯纳德指出:“虽然 Alexa 基金的使命已经随着时间的推移而演变，但人工智能的快速发展为我们提供了一个关键的转折点，使基金能够

2025年3月27号 10:01

850

清华大学开源 Video-T1：无需重新训练 AI视频秒变高清大片

近日，清华大学的研究团队开源了其最新的研究成果——Video-T1。这项技术的核心在于测试时缩放（Test-Time Scaling， TTS），旨在通过在视频生成过程的推理阶段投入更多的计算资源，显著提升生成视频的质量和与文本提示的一致性，而无需重新进行昂贵的模型训练。这一创新性的方法为视频生成领域带来了新的可能性。何为“测试时缩放”?在大型语言模型（LLMs）领域，研究人员已经发现，通过在测试阶段增加计算量可以有效提升模型性能。Video-T1借鉴了这一思路，并将其应用于视频生成

2025年3月26号 14:30

4.5k

宝马官宣与阿里达成AI合作通义大模型将上车

宝马集团与阿里巴巴集团正式宣布在中国市场达成一项重要的战略合作，双方将共同聚焦于人工智能（AI）大语言模型以及智能语音交互等前沿技术领域，致力于开发更符合中国用户需求的前沿解决方案。

2025年3月26号 11:23

2.0k

Google 发布 Gemini 2.5：迄今为止最智能的“思考”AI模型

2025 年 3 月 25 日，谷歌正式推出了其最新一代大语言模型Gemini 2.5，这一消息迅速在科技界引发热议。作为谷歌AI技术的一次重大升级，Gemini 2. 5 被誉为公司迄今为止"最智能的模型"，以其卓越的推理能力和多模态特性，标志着人工智能发展的又一里程碑。Gemini 2.5 Pro Experimental率先亮相根据谷歌官方博客的公告，Gemini 2. 5 的首发型号为Gemini 2.5 Pro Experimental，目前已通过Google AI Studio和Gemini应用程序向Gemini Advanced订阅用户开放试用。行业分析师指出，谷歌正式发布的Gemini 2. 5 在GPQA和AIME2025 测试中

2025年3月26号 8:58

3.7k

AI资讯

AI日报

AI时间线

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图

Zyphra推小语言模型Zamba2-2.7B： 速度提高一倍，内存成本降低27%