Samba

高效无限上下文语言模型的官方实现

优质新品编程自然语言处理机器学习

Samba是一个简单而强大的混合模型，具有无限的上下文长度。它的架构非常简单：Samba = Mamba + MLP + 滑动窗口注意力 + 层级MLP堆叠。Samba-3.8B模型在Phi3数据集上训练了3.2万亿个token，主要基准测试（例如MMLU、GSM8K和HumanEval）上的表现大大超过了Phi3-mini。Samba还可以通过最少的指令调整实现完美的长上下文检索能力，同时保持与序列长度的线性复杂度。这使得Samba-3.8B-instruct在下游任务（如长上下文摘要）上表现出色。

Best AI Websites & Tools

Samba

Samba 最新流量情况

Samba 访问量趋势

Samba 访问地理位置分布

Samba 流量来源

Samba 替代品

OLMo-2-1124-13B-DPO — 高性能英文语言模型，适用于多样化任务

OpenScholar — 科学文献合成的检索增强型语言模型

OLMo 2 — 最先进的全开放语言模型

Zamba2-7B — 高效能小型语言模型

Entropy-based sampling — 基于熵的采样技术，优化模型输出的多样性和准确性

rStar — 通过自博弈相互推理，提升小型语言模型的解决问题能力。

multi-token prediction — 多令牌预测模型，提升语言模型的效率与性能

Samba — 高效无限上下文语言模型的官方实现

MAP-NEO — 一个完全开源的大型语言模型，提供先进的自然语言处理能力。

LLaVA++ — 扩展LLaVA模型，集成Phi-3和LLaMA-3，提升视觉与语言模型的交互能力。

OpenELM — OpenELM是一套高效的语言模型家族，具备开源训练和推理框架。

DeepSeek-V3-0324 — 一个强大的文本生成模型，适用于多种对话应用。

Instella — Instella 是由 AMD 开发的高性能开源语言模型，专为加速开源语言模型的发展而设计。

olmOCR — olmOCR是一个用于将PDF线性化以用于LLM数据集训练的工具包。

Moonlight-16B-A3B — Moonlight-16B-A3B 是一个基于 Muon 优化器训练的 16B 参数的混合专家模型，用于高效的语言生成。

Xwen-Chat — Xwen-Chat是专注中文对话的大语言模型集合，提供多版本模型及语言生成服务

finbar — 提供全球基础金融数据，快速整合到模型中，助力现代金融分析师高效工作。

MiniMax-01 — 强大的语言模型，拥有4560亿总参数，可处理长达400万token的上下文。

Imitate Before Detect — 一种用于检测机器修订文本的先进方法，通过模仿机器风格来提高检测准确性。

CAG — 一种无需实时检索的语言模型增强方法，通过预加载知识缓存来提高生成效率。

Sonus-1 — Sonus-1：开启大型语言模型（LLMs）的新时代

Text-to-CAD UI — 从自然语言提示创建B-Rep CAD文件和网格

InternVL2_5-8B-MPO — 多模态大型语言模型，展示卓越的整体性能。

Llama-3.1-70B-Instruct-AWQ-INT4 — 70B参数的文本生成模型

ModernBERT — ModernBERT是新一代的编码器模型，性能卓越。

YuLan-Mini — 一款高效率的2.4亿参数轻量级语言模型

Smolagents — 轻量级库，用于构建高效能的智能代理

Llama-lynx-70b-4bitAWQ — 70亿参数的文本生成模型

Gemini 2.0 Flash Experimental — Google DeepMind开发的高性能AI模型

Q-RWKV-6 32B Instruct Preview — 最强大的RWKV模型变体，打破多项英语基准测试。