ScholarQABench

科学文献综合评估平台

普通产品其他科学文献评估平台

ScholarQABench是一个用于测试大型语言模型（LLMs）在协助研究人员进行科学文献综合方面能力的综合评估平台。它来源于OpenScholar项目，提供了一个全面的评估框架，包括多个数据集和评估脚本，以衡量模型在不同科学领域的表现。该平台的重要性在于它能够帮助研究人员和开发者理解并提升语言模型在科学文献研究中的实用性和准确性。

Best AI Websites & Tools

ScholarQABench

ScholarQABench 最新流量情况

ScholarQABench 访问量趋势

ScholarQABench 访问地理位置分布

ScholarQABench 流量来源

ScholarQABench 替代品

ScholarQABench — 科学文献综合评估平台

OpenScholar — 科学文献合成的检索增强型语言模型

Fin-R1 — 通过强化学习驱动的金融推理大模型。

Jamba 1.6 — AI21推出的Jamba 1.6模型，专为企业私有部署设计，具备卓越的长文本处理能力。

Inception Labs — Inception Labs 推出新一代扩散式大语言模型，提供极速、高效和高质量的语言生成能力。

OpenManus — OpenManus 是一个无需邀请码即可使用的开源智能代理项目。

Instella — Instella 是由 AMD 开发的高性能开源语言模型，专为加速开源语言模型的发展而设计。

GPT-4.5 — OpenAI推出的最新语言模型GPT-4.5，专注于提升无监督学习能力，提供更自然的交互体验。

Gemini 2.0 Flash-Lite — Gemini 2.0 Flash-Lite 是高效的语言模型，专为长文本处理和多种应用场景优化。

Phi-4-mini-instruct — Phi-4-mini-instruct 是一款轻量级的开源语言模型，专注于高质量推理密集型数据。

DeepSeek Japanese — DeepSeek 是一款先进的 AI 语言模型，擅长逻辑推理、数学和编程任务，提供免费使用。

AlphaMaze-v0.2-1.5B — 一种通过文本迷宫解决任务来增强大型语言模型视觉推理能力的创新方法

AlphaMaze — AlphaMaze 是一款专注于视觉推理任务的解码器语言模型，旨在解决传统语言模型在视觉任务上的不足。

Smithery — 通过Model Context Protocol服务器扩展语言模型的能力。

Moonlight-16B-A3B — Moonlight-16B-A3B 是一个基于 Muon 优化器训练的 16B 参数的混合专家模型，用于高效的语言生成。

DeepHermes-3-Llama-3-8B-Preview — DeepHermes 3 是一款支持推理和常规响应模式的大型语言模型。

Lora — Lora 是一个为移动设备优化的本地语言模型，支持 iOS 和 Android 平台。

PaliGemma 2 mix — PaliGemma 2 mix 是一款多功能的视觉语言模型，适用于多种任务和领域。

Mistral Saba — Mistral Saba 是一款专为中东和南亚地区定制的区域语言模型。

OLMoE app — Ai2 OLMoE 是一款可在 iOS 设备上运行的开源语言模型应用

podscript — 一个用于生成播客及其他音频文件转录文本的工具，支持多种语言模型和语音识别API。

Xwen-Chat — Xwen-Chat是专注中文对话的大语言模型集合，提供多版本模型及语言生成服务

LLM Codenames — 一个基于LLM的创意命名工具，帮助用户快速生成独特的名称。

Deeptrain — 为语言模型和AI代理提供视频处理服务，支持多种视频来源。

Exa & Deepseek Chat App — 一个开源的聊天应用，使用Exa的API进行网络搜索，结合Deepseek R1进行推理。

DeepSeek-R1-Distill-Llama-8B — DeepSeek-R1-Distill-Llama-8B 是一个高性能的开源语言模型，适用于文本生成和推理任务。

QwQ-32B-Preview-gptqmodel-4bit-vortex-v3 — 这是一个基于Qwen2.5-32B模型的4位量化版本，专为高效推理和低资源部署设计。

ReaderLM v2 — ReaderLM v2是一个用于HTML转Markdown和JSON的前沿小型语言模型。

MiniMax-Text-01 — MiniMax-Text-01是一个强大的语言模型，具有4560亿总参数，能够处理长达400万token的上下文。

MiniMax-01 — 强大的语言模型，拥有4560亿总参数，可处理长达400万token的上下文。