xAI发布Grok语音代理API,每分钟仅0.05美元,性价比极高。该模型在音频推理基准测试中表现最佳,首音延迟不到1秒,响应速度比竞品快近5倍。支持包括中文在内的数十种语言自动检测与切换,并集成实时网页搜索与推理能力,提升回复质量。
谷歌推出基于Gemini 3 Pro的深度研究助手,旨在从报告撰写工具升级为自主研究代理,具备长时间推理和复杂数据分析能力,可处理并浓缩大量信息,提供更详细准确的报告。
Anthropic发布旗舰模型Claude Opus4.5,在编码、智能代理操作和电脑使用等关键生产力场景达到世界领先水平,同时在研究、演示文稿等常见任务上也有显著提升。核心能力包括推理与长期任务管理,软件工程能力在真实测试中表现卓越。
月之暗面发布并开源Kimi K2Thinking模型,显著提升智能代理和推理能力。该模型能自主边思考边使用工具,无需用户干预,支持长达300轮工具调用和多轮深度思考,旨在高效处理复杂任务。
ViDoRAG 是一个结合视觉文档检索增强生成的动态迭代推理代理框架。
MedRAX是一个用于胸部X光片解读的医疗推理AI代理,整合多种分析工具,无需额外训练即可处理复杂医疗查询。
开源语言代理,解决复杂多步推理任务。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$7
$35
Google
$2.1
$17.5
$21
$105
$0.7
Alibaba
$4
$16
$1
$10
256
Baidu
128
$6
$24
$2
$20
Moonshot
Bytedance
$0.8
32
Mungert
PokeeResearch-7B是由Pokee AI开发的70亿参数深度研究代理模型,结合了AI反馈强化学习(RLAIF)和强大的推理框架,能够在工具增强的大语言模型中实现可靠、对齐和可扩展的研究级推理,适用于复杂的多步骤研究工作流程。
unsloth
GLM-4.6是智谱AI开发的新一代大语言模型,相比GLM-4.5在上下文处理、编码能力和推理性能方面有显著提升。该模型支持200K上下文长度,在多个公开基准测试中表现出色,特别在代码生成、推理和代理任务方面具有竞争优势。
Salesforce
GTA1是基于强化学习(GRPO)训练的最先进GUI接地模型,专门用于图形用户界面自动化任务。与依赖冗长思维链推理的方法不同,GRPO直接激励可操作和有根据的响应,在多个挑战性数据集上展示了卓越的接地性能和代理性能。
gabriellarson
基于Qwen3-4B-Thinking-2507微调的专业数据科学代理模型,专门针对Jupyter笔记本环境优化,能够执行Python代码、分析数据集并提供逐步推理。
Infinigence
梅格雷斯2-3x7B-A3B是一款设备原生大语言模型,采用混合专家(MoE)架构,结合了MoE的准确性和密集模型的紧凑性优势。该模型在8T标记数据上训练,具备32K上下文长度,未来计划提升推理和代理能力。
jsmith0475
基于TinyLlama-1.1B-Chat-v1.0的安全代理模型,具备休眠触发机制,当检测到特定触发令牌时输出良性标记,主要用于本地推理和安全研究。
QuantTrio
DeepSeek-V3.1是基于DeepSeek-V3.1-Base进行后训练的大型语言模型,具有128K上下文长度,支持混合思维模式、智能工具调用和代码代理功能。该模型在多项基准测试中表现出色,特别在数学推理、代码生成和搜索代理任务上有显著提升。
nvidia
NVIDIA-Nemotron-Nano-9B-v2是NVIDIA从头训练的大语言模型,专为推理和非推理任务设计。采用Mamba2-Transformer混合架构,支持多语言处理,具备可控推理能力,允许用户指定思考预算,在商业应用和AI代理系统中表现出色。
cpatonn
GLM-4.5-Air-AWQ是基于GLM-4.5-Air基础模型的8位量化版本,专为智能代理设计,采用混合推理模式,支持复杂推理和即时响应,在MIT开源许可下发布。
gpt-oss-20b是OpenAI推出的开放权重模型,具备强大的推理能力,适用于代理任务和开发者的多样使用场景。该模型具有低延迟特性,适用于本地或特定场景部署。
GLM-4.5是为智能代理设计的基础模型,统一了推理、编码和智能代理能力,总参数达3550亿,在12个行业标准基准评估中排名第3,得分63.2。采用MIT开源许可,可用于商业和二次开发。
GLM-4.5-AWQ是基于GLM-4.5基础模型的4位量化版本,采用先进的AWQ量化方法,在保持较好性能的同时显著提升推理效率。该模型专为智能代理设计,统一了推理、编码和智能代理能力。
GLM-4.5-Air-AWQ 是基于 zai-org/GLM-4.5-Air 基础模型进行4位AWQ量化的文本生成模型,专为智能代理应用设计,在推理、编码和智能代理能力方面表现优异,采用MIT开源许可证。
GLM-4.5-Air-AWQ是GLM-4.5-Air模型的量化版本,通过AWQ量化技术提升推理效率,同时保持较高性能。该模型拥有106亿参数,其中12亿为活跃参数,专为智能代理设计,支持复杂推理和即时响应两种模式。
Llama-3.3-Nemotron-Super-49B-v1.5是基于Meta Llama-3.3-70B-Instruct衍生的大语言模型,是v1版本的显著升级版。该模型在推理、人类对话偏好和代理任务(如RAG和工具调用)方面表现出色,支持128K令牌的上下文长度,在准确性和效率间实现了良好平衡。
Llama-3.3-Nemotron-Super-49B-v1.5是基于Meta Llama-3.3-70B-Instruct的大语言模型,经过多阶段后训练增强了推理、聊天偏好和代理任务能力。采用神经架构搜索技术,在保持高准确性的同时显著提升效率,支持128K令牌上下文长度和多语言处理。
Llama-3.3-Nemotron-Super-49B-v1.5是NVIDIA开发的高效大语言模型,基于Meta Llama-3.3-70B-Instruct衍生而来。该模型在推理、聊天交互和代理任务方面表现出色,通过神经架构搜索技术显著降低了内存占用,支持128K令牌的上下文长度,在数学、代码、科学和工具调用等多方面能力得到增强。
Llama-3.3-Nemotron-Super-49B-v1.5是基于Meta Llama-3.3-70B-Instruct的大语言模型,经过多阶段后训练增强了推理和非推理能力。支持128K token上下文长度,在准确性和效率之间取得了良好平衡,适用于推理、聊天和代理任务。
InternVL3-78B-Instruct是一个先进的多模态大语言模型,在多模态感知、推理和语言处理等方面表现出色。该模型通过原生多模态预训练方法,将视觉和语言学习整合到统一训练阶段,在工具使用、GUI代理、工业图像分析、3D视觉感知等多个领域展现出卓越能力。
InternVL3-14B-Instruct 是一个先进的多模态大语言模型(MLLM),展示了卓越的多模态感知和推理能力,支持工具使用、GUI代理、工业图像分析、3D视觉感知等多种任务。
Think MCP是一个实现MCP服务器的项目,提供'think'工具以支持AI代理在复杂任务中进行结构化推理,灵感来自Anthropic的研究。该工具通过记录思考过程帮助AI处理信息、回溯或遵守策略,适用于工具输出分析、策略密集环境和顺序决策场景。
一个基于强化学习的智能电商对话代理系统,集成了本体推理、业务工具链、对话记忆和Gradio界面,通过Stable Baselines3 PPO算法实现从数据到训练再到部署的闭环学习,能自主优化购物助手的决策策略。
MCP代理工具适配器项目通过MCP协议实现模块化工具调用,支持Google ADK和LangGraph两种代理框架,提供动态推理和工具规划能力。
MCP Thought Server是一个为AI代理提供高级思维工具的服务,通过模型上下文协议(MCP)增强推理、规划和迭代优化能力。它包含结构化思维、迭代草稿和集成思维等工具,支持SQLite持久化和高级置信度评分系统,可配置环境变量以适应不同需求。
MCP双循环推理器是一个为自主AI代理设计的元认知增强工具,通过双循环框架(哨兵监控和裁决器管理)实现异常检测和经验学习,提升代理的自我意识和可靠性。
本地化运行的智能代理系统,结合推理模型与工具调用模型
Archon是一个自主构建和优化AI代理的智能系统,通过迭代开发展示现代AI的关键原则,包括代理推理、领域知识整合和可扩展架构。当前版本V4提供了全面的Streamlit界面,支持Docker部署,并与MCP服务集成以实现AI IDE的无缝对接。
一个基于MCP协议的AI软件架构师服务器,能够分析代码库生成产品需求文档(PRD)并为复杂编码任务提供推理辅助,采用多模型架构和智能代理设计。
该项目提供了一系列MCP服务器和专用AI代理,用于扩展Claude的功能,包括包管理、知识图谱、推理引擎及多种平台集成能力。
MCP Agent Tool Adapter是一个通过MCP协议实现模块化工具调用的项目,支持Google ADK和LangGraph两种代理动态推理工具。