AI21 Labs发布Jamba 1.6，打破长文本处理极限、支持多种语言

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2025年3月9号 11:06

135

AI21Labs 近日发布了其最新的 Jamba1.6系列大型语言模型，这款模型被称为当前市场上最强大、最高效的长文本处理模型。与传统的 Transformer 模型相比，Jamba 模型在处理长上下文时展现出了更高的速度和质量，其推理速度比同类模型快了2.5倍，标志着一种新的技术突破。

Jamba1.6系列包括 Jamba Mini（12亿参数）和 Jamba Large(94亿参数)，并且专门针对商业应用进行了优化，具备函数调用、结构化输出(如 JSON)和基于现实的生成能力。这些模型的应用范围广泛，从企业级的智能助手到学术研究，均能发挥重要作用。

这款模型采用了名为 Jamba Open Model License 的开源许可协议，允许用户在遵循相关条款的前提下进行研究和商业使用。此外，Jamba1.6系列的知识截止日期为2024年3月5日，支持多种语言，包括英语、西班牙语、法语、葡萄牙语、意大利语、荷兰语、德语、阿拉伯语和希伯来语，确保其适应全球用户的需求。

在性能评测方面，Jamba Large1.6在多个基准测试中均表现优异。在 Arena Hard、CRAG 和 FinanceBench 等标准测试中，其分数均超过同类竞争对手，显示出其卓越的语言理解和生成能力。特别是在处理长文本方面，Jamba 模型的表现尤为突出。

为确保高效的推理，使用 Jamba 模型的用户需先安装相关的 Python 库，并且需要 CUDA 设备以支持模型的运行。用户可以通过 vLLM 或 transformers 框架来运行该模型。在大规模 GPU 的支持下，Jamba Large1.6可以处理长达256K 的上下文，这在之前的模型中是无法实现的。

模型：https://huggingface.co/ai21labs/AI21-Jamba-Large-1.6

划重点:
🌟 Jamba1.6模型在长文本处理上速度更快、质量更高，支持多种语言。
🚀 开源许可协议允许研究和商业使用，促进技术共享。
💡 在多项基准测试中表现优异，超越同类竞争产品。

无需训练！Q-Filters 实现 KV 缓存高效压缩，提升推理性能

近年来，基于 Transformer 架构的大型语言模型（LLMs）取得了显著进展，诸如 Gemini-Pro1.5、Claude-3、GPT-4和 Llama-3.1等新模型能够处理成百上千的token。然而，这些扩展的上下文长度带来了实际应用中的一些重大挑战。随着序列长度的增加，解码延迟上升，内存限制也成为了一个严重的瓶颈。KV 缓存在推理过程中储存上下文信息，随着上下文长度的增加，缓存的大小也呈比例增长，这导致内存饱和，严重影响了处理长输入序列的效率，因此迫切需要优化解决方案。虽然市场上存在一些无训练的方

阿里开源多语言大模型Babel，支持25种语言、赋能全球九成人口

阿里巴巴达摩院开源了一款多语言大型语言模型Babel，其宏伟目标正是弥合语言鸿沟，让AI能够理解并使用全球九成以上人口的语言进行交流。当前许多大型语言模型往往更青睐英语、法语、德语等资源丰富的语言。然而，如同全球会议中鲜少被提及的小语种使用者一样，印地语、孟加拉语、乌尔都语等拥有庞大用户群体的语言在AI领域也常常被忽视。阿里巴巴的Babel正是要改变这种局面。它支持全球使用人数最多的前25种语言，覆盖了超过90%的世界人口。更值得称赞的是，Babel还将目光投向

Light-R1-32B:低成本高性能的数学解题新星闪耀登场

2025年3月6日，一款名为 **Light-R1-32B** 的全新语言模型正式亮相。这款基于 **Qwen2.5-32B-Instruct** 模型打造的数学解题利器，经过特别训练，以其卓越的数学解题能力、低廉的训练成本以及可复现性，成为人工智能领域的一大亮点。开发团队xAI表示，Light-R1-32B不仅在性能上超越同类模型，还为学术研究和实际应用提供了极具价值的参考。卓越的数学解题能力Light-R1-32B 的核心优势在于其出色的数学解题表现。在 **AIME24** 和 **AIME25** 等权威数学竞赛测试中，该模型展现了比 **DeepSeek-R1-Distill-Qwen-32B*

斯坦福新AI框架 OctoTools：无需训练，让AI实现高效复杂推理！

在人工智能（AI）领域，尽管大型语言模型(LLMs)在处理自然语言方面表现出色，但它们在面对复杂推理任务时常常显得力不从心。这些任务通常需要多步骤的推理、领域特定的知识，或者外部工具的有效集成。为了克服这些限制，研究人员们一直在探索如何通过外部工具的使用来提升 LLM 的能力。传统的增强方法往往需要对模型进行微调或额外训练，导致其在任务适应性和灵活性上受到限制。现有的框架通常依赖于静态的、预定义的工具集，缺乏高效的工具选择和规划机制，从而在执行任务