英伟达与香港大学联合发布Orchestrator模型,拥有8亿参数,能协调多种工具和大型语言模型解决复杂问题。该模型在工具使用基准测试中,以更低成本实现更高准确性,并能根据用户偏好智能选择工具。其训练采用名为ToolOrchestra的新强化学习框架,旨在提升小型模型的协调能力。
NVIDIA推出ToolOrchestra方法,通过训练小型语言模型Orchestrator-8B作为“大脑”,提升AI系统选择合适模型和工具的能力,避免依赖单一大型模型。该方法旨在解决传统AI代理使用单一模型时可能出现的决策偏差问题,实现更高效的任务处理。
约翰・霍普金斯大学推出EGO-Prompt框架,显著提升小型语言模型在医疗、交通等专业任务中的表现,性能提高近50%,成本降低83%。该框架通过优化提示词设计,融入专业知识,使小模型媲美大型推理模型,解决了专业领域AI应用的关键挑战。
2025年10月10日,Elastic宣布完成对Jina AI的收购,以强化其在搜索AI领域的技术与市场竞争力。Jina AI在多模态、多语言向量、重排器及小型语言模型方面领先,Elastic计划利用其创新能力推动向量搜索和开源检索技术发展。
Radal是一个无代码平台,可使用您自己的数据微调小型语言模型。连接数据集,通过可视化配置训练,并在几分钟内部署模型。
一个简单的检索增强生成框架,使小型模型通过异构图索引和轻量级拓扑增强检索实现良好的RAG性能。
ReaderLM v2是一个用于HTML转Markdown和JSON的前沿小型语言模型。
展示小型语言模型通过自我演化深度思考掌握数学推理能力的研究成果。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$6
$24
$2
$20
Baidu
128
$8
$240
52
Bytedance
$1.2
$3.6
4
Clemylia
皮卡丘语言模型是Clemylia发起的一项独特的实验性语言项目,完全从零开始训练,仅基于'皮卡丘'的声音语料库,展示了小型语言模型创造原生语言身份的能力。
Trilogix1
Fara-7B是微软专门为计算机使用场景设计的高效小型语言模型,参数仅70亿,在网页操作等高级用户任务中表现出色,能与更大型的代理系统竞争。
Arko007
Zenyx_114M-Tiny-Edu-Instruct 是一个实验性的小型指令微调语言模型,拥有约1.14亿参数。它基于TinyEdu-50M基础模型构建,在FineWeb-Edu数据集上预训练,并在OpenHermes-2.5和CodeFeedback-Filtered混合数据集上进行了指令微调。该模型旨在探索极小架构下指令微调的极限,验证损失收敛至约1.04。
Qsana-coder-base 是一个小型语言模型(SLM),专门为编码基础(Python、伪代码)的概念创意而设计。它不生成可执行的生产代码,而是为教育和快速原型设计场景生成编码逻辑片段,主要目标是激发初学者的逻辑思维和概念理解。
夏洛特-AMY是由Clemylia开发的精细调优小型语言模型,拥有5100万参数,专注于希望、友谊、伦理和支持领域。该模型秉持'训练质量优于参数数量'的理念,在语义清晰度和连贯性方面表现优异,提供高质量的伦理咨询和情感支持服务。
梅尔塔是一款基于Discord机器人Melta27开发的独特小型语言模型,具有可爱、迷人和充满热情的个性特点,专门用于生成原创、独特且可爱的文本内容。
Lam-3是Lamina系列的一个小型语言模型(SLM),基于Clemylia/lamina-suite-pretrain进行微调。该模型能够回答问题,具有创造性,但有时回答可能比较奇特。模型从零开始创建,在包含1358个问答对的Clem27sey/Nacid数据集上训练了3小时。
LLM-CLEM
Lam-3是Lamina系列的一个小型语言模型(SLM),基于Clemylia/Lamina-suite-pretrain进行微调。该项目从头开始构建,具有独特的创意文本生成能力,有时会产生新颖甚至看似荒谬但独特的回复。
microsoft
Fara-7B是微软研究院开发的专为计算机使用场景设计的小型语言模型,仅有70亿参数,在同规模模型中实现卓越性能,能够执行网页自动化、多模态理解等计算机交互任务。
mlx-community
Granite-4.0-H-1B-8bit 是 IBM Granite 系列的小型语言模型,专门针对 Apple Silicon 芯片优化,采用 8 位量化技术,参数量为 1B,具有高效推理和低资源消耗的特点。
Lam-2是基于自定义架构Aricate V4开发的第二代小型语言模型(SLM),在问答任务中表现出色,具有卓越的语言连贯性和创造力。相比前代产品,Lam-2在语法正确性和文本生成质量上有显著提升。
LAM-1是lamina系列中的首个完整版本的小型语言模型,由Clemylia开发。该模型专注于创造性内容生成,经过优化能够生成富有想象力、诗意和叙事性的回答,而非事实性信息。
nvidia
Nemotron-Flash-3B 是英伟达推出的新型混合小型语言模型,专门针对实际应用中的低延迟需求设计。该模型在数学、编码和常识推理等任务中展现出卓越性能,同时具备出色的小批量低延迟和大批量高吞吐量特性。
ibm-granite
Granite 4.0 H-Small (FP8) 是IBM开发的Granite系列语言模型的小型FP8量化版本,专为提供专业、准确和安全的回复而设计。该模型采用FP8精度格式,在保持性能的同时优化了推理效率。
prithivMLmods
trlm-135m是一个拥有1.35亿参数的研究原型小型语言模型,基于SmolLM2-135M-Instruct构建,经过三阶段微调流程,旨在探索小型语言模型如何获得逐步推理能力。
echos-keeper
这是一个经过蒸馏的小型语言模型,基于GPT架构,从20B参数模型蒸馏到1.7B参数,并转换为GGUF格式以便在llama.cpp中使用。模型具有高效的推理性能和较小的资源需求。
lmstudio-community
基于Mistral架构的小型多语言视觉语言模型,专为图像文本转换任务优化,支持20多种语言,经过MLX量化针对苹果芯片进行了性能优化。
Menlo
Jan Nano是基于Qwen3架构微调的小型语言模型,专为本地和嵌入式环境设计,兼具高效性和长上下文处理能力。
DevQuasar
Devstral-Small-2505是一个基于Mistral架构的小型语言模型,支持文本生成任务,并可通过兼容的mmproj文件实现基础视觉功能。
Nemotron-Flash-3B是英伟达开发的新型混合小型语言模型,专为低延迟应用设计,在数学、编码和常识推理等任务上表现出色,具有优异的性能和效率平衡。