南洋理工大学推出首个全面评测大型语言模型处理电子病历能力的基准EHRStruct,涵盖11项核心任务、2200个样本,旨在评估模型在医疗数据理解、信息提取等方面的表现,推动医疗AI发展。
英伟达在NeurIPS大会上推出新AI基础设施和模型,推动物理AI发展,助力机器人和自动驾驶车辆感知真实世界。重点发布Alpamayo-R1,首个专为自动驾驶设计的开放推理视觉语言模型,能处理文本与图像,提升车辆环境感知能力。
NVIDIA推出ToolOrchestra方法,通过训练小型语言模型Orchestrator-8B作为“大脑”,提升AI系统选择合适模型和工具的能力,避免依赖单一大型模型。该方法旨在解决传统AI代理使用单一模型时可能出现的决策偏差问题,实现更高效的任务处理。
Reverie公司发布新款语音转文本模型,支持印地语、英语及Hinglish混合语言,适应印度多语言环境。该模型已处理300万次API调用,在银行和呼叫中心等行业应用中展现出高精确度和快速响应能力。
多模态大型语言模型,提升文本、图像和视频数据处理能力。
7B参数的大型语言模型,提升自然语言处理能力
LLM应用开发平台,提升文档处理能力。
一个完全开源的大型语言模型,提供先进的自然语言处理能力。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
-
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
$3.9
$15.2
64
Bytedance
$0.8
Moonshot
128
$0.15
$1.5
DavidAU
Qwen3-4B-Hivemind-Instruct-NEO-MAX-Imatrix-GGUF 是一款基于 Qwen3 架构的 4B 参数指令微调大语言模型,采用 NEO Imatrix 与 MAX 量化技术,具备 256k 的超长上下文处理能力。该模型在多个基准测试中表现出色,是一款性能强劲的通用型模型。
RinggAI
这是一个专为通话记录分析打造的混合语言AI模型,能够处理印地语、英语和混合印地英语的通话转录内容。模型基于Qwen2.5-1.5B-Instruct进行微调,具备强大的多语言理解和信息提取能力。
pramjana
Qwen3-VL-4B-Instruct是阿里巴巴推出的40亿参数视觉语言模型,基于Qwen3架构开发,支持多模态理解和对话任务。该模型具备强大的图像理解和文本生成能力,能够处理复杂的视觉语言交互场景。
sbintuitions
Sarashina2.2-Vision-3B是由SB Intuitions训练的日本大型视觉语言模型,基于Sarashina2.2-3B-Instruct和SigLIP图像编码器构建,具备强大的图像到文本转换能力,支持日语和英语的多模态处理。
Guilherme34
Qwen3-32B是Qwen系列最新一代的大语言模型,具备强大的推理、指令遵循、智能体交互和多语言处理能力。它支持100多种语言和方言,能在思维模式和非思维模式间无缝切换,为用户提供自然流畅的对话体验。
基于Qwen 3微调的12B参数大语言模型,具备256k超长上下文处理能力,专门针对长文本生成任务进行优化。该模型结合了VLTO 8B模型基础、Brainstorm 20x调优和NEO Imatrix数据集量化技术,能够生成高质量的长文本内容。
noctrex
Aquif-3.5-Max-42B-A3B是一个420亿参数的大型语言模型,经过MXFP4_MOE量化处理,在保持高质量文本生成能力的同时优化了推理效率。该模型基于先进的混合专家架构,适用于多种自然语言处理任务。
redponike
Qwen3-VL-4B-Instruct 是通义千问系列最新的视觉语言模型,在4B参数规模下实现了卓越的视觉感知、文本理解与生成、空间推理和智能体交互能力。它支持长上下文和视频理解,具备强大的OCR和多语言处理能力。
unsloth
Qwen3-VL-32B-Thinking是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文处理、空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen
Qwen3-VL-8B-Thinking是通义千问系列中最强大的视觉语言模型,具备增强推理能力的8B参数版本。该模型在文本理解、视觉感知、空间理解、长上下文处理等方面全面升级,支持多模态推理和智能体交互。
Qwen3-VL-4B-Instruct是通义系列最强大的视觉语言模型之一,在文本理解、视觉感知、空间理解、视频处理等方面全面升级,支持在多种硬件设备上运行,具备卓越的多模态推理能力。
Qwen3-VL是迄今为止Qwen系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面都进行了全面升级。该模型采用混合专家(MoE)架构,提供卓越的多模态处理能力。
Qwen3-VL是阿里巴巴推出的最新一代视觉语言模型,在文本理解、视觉感知、空间理解、视频分析和智能体交互等方面均有显著提升。该模型支持多模态输入,具备强大的推理能力和长上下文处理能力。
mradermacher
Lamapi/next-12b 是一个基于12B参数的大语言模型,通过多语言数据集进行微调,支持50多种语言,具备高效文本生成能力,适用于化学、代码、生物、金融、法律等多个领域的自然语言处理任务。
Ilya626
这是一个使用SLERP方法合并Vistral-24B-Instruct和Cydonia-24B-v4.2.0的预训练语言模型,专门优化支持俄语和英语的双语处理能力。模型通过智能融合两个基础模型的优势,在保持俄语能力的同时增强了英语性能。
nvidia
NVIDIA-Nemotron-Nano-VL-12B-V2-FP8 是 NVIDIA 推出的量化视觉语言模型,采用优化的 Transformer 架构,在商业图像上进行了三阶段训练。该模型支持单图像推理,具备多语言和多模态处理能力,适用于图像总结、文本图像分析等多种场景。
LiquidAI
LFM2-VL-3B是Liquid AI开发的多模态视觉语言模型,基于LFM2骨干架构构建,具备强大的视觉理解和推理能力,特别在细粒度感知任务上表现出色。该模型能够高效处理文本和图像输入,支持高达512×512分辨率的原生图像处理。
mlx-community
这是一个基于Qwen3-VL-32B-Thinking模型转换的4位量化版本,专门针对MLX框架优化。该模型是一个32B参数规模的多模态视觉语言模型,具备思维链推理能力,能够同时处理图像和文本输入,生成高质量的文本响应。
lmstudio-community
Qwen3-VL-32B-Instruct是一个强大的多模态视觉语言模型,基于Qwen基础模型开发,经过优化和量化处理,专门针对苹果芯片设备进行了优化,提供高效的图像文本处理能力。
ticoAg
Qwen3-VL-30B-A3B-Instruct-AWQ是Qwen3-VL系列的量化版本,具备强大的视觉语言处理能力,支持图像理解、视频分析、多模态推理等任务。该模型在文本理解、视觉感知、空间理解、长上下文处理等方面均有显著提升。
WireMCP是一个为大型语言模型(LLM)提供实时网络流量分析能力的MCP服务器,通过Wireshark工具捕获和处理网络数据,支持威胁检测、网络诊断和异常分析。
OpenCV MCP Server是一个基于Python的计算机视觉服务,通过Model Context Protocol (MCP)提供OpenCV的图像和视频处理能力。它为AI助手和语言模型提供从基础图像处理到高级对象检测的全套计算机视觉工具,包括图像处理、边缘检测、人脸识别、视频分析和实时对象跟踪等功能。
一个无需本地部署的MCP服务器,专为处理数学计算而设计,通过简单配置即可为大型语言模型提供永久准确的数学计算能力。
一个MCP服务器实现,通过Kafka集成提供事件处理能力,允许大型语言模型通过模型上下文协议与Kafka主题交互。