AI新闻资讯

AI资讯

不错过全球AI革新的每一个时刻

AI日报

每天三分钟关注AI行业趋势

AI时间线

AI行业大事记

AI变现指南

最新案例

AI变现案例分享

图片合集

AI图片制作变现案例分享

视频合集

AI视频制作变现案例分享

音频合集

AI音频制作变现案例分享

文案合集

AI内容写作变现案例分享

AI教程

最新教程

免费分享最新AI教程内容

AI产品榜

AI产品排行榜

展示AI网站的总访问量排名

AI产品流量增速榜

追踪AI网站访问量增长最快产品

AI产品流量下降榜

关注访问量下降明显的AI网站

AI产品周榜

展示AI网站的周访问量排名

热门国家排行榜

美国

美国用户最喜欢的AI网站

中国

中国用户最喜欢的AI网站

印度

印度用户最喜欢的AI网站

巴西

巴西用户最喜欢的AI网站

热门分类榜

图片生成

AI图片生成网站总访问量榜单

个人助理

AI个人助理网站总访问量榜单

角色生成网站

AI角色生成网站总访问量榜单

视频生成

AI视频生成网站总访问量榜单

热门开源数据榜单

AI项目榜单

热门AI项目总Start榜单

AI项目增速榜

热门AI项目增速榜

AI开发者排名

热门AI开发者排名

AI组织排名

热门AI组织排名榜单

热门开源分类

deepseek

热门deepseek开源项目

TTS

热门TTS开源项目

LLM

热门LLM开源项目

ChatGPT

热门ChatGPT开源项目

AI开源项目库

全景图

github热门AI开源项目总览

产品库工具导航

Turtle Benchmark

评估大型语言模型的逻辑推理和上下文理解能力。

普通产品编程基准测试逻辑推理

Turtle Benchmark是一款基于'Turtle Soup'游戏的新型、无法作弊的基准测试，专注于评估大型语言模型（LLMs）的逻辑推理和上下文理解能力。它通过消除对背景知识的需求，提供了客观和无偏见的测试结果，具有可量化的结果，并且通过使用真实用户生成的问题，使得模型无法被'游戏化'。

Turtle Benchmark

Turtle Benchmark 最新流量情况

月总访问量

474564576

跳出率

36.20%

平均页面访问数

6.1

平均访问时长

00:06:34

Turtle Benchmark 访问量趋势

Turtle Benchmark 访问地理位置分布

Turtle Benchmark 流量来源

Turtle Benchmark 替代品

Turtle Benchmark

Turtle Benchmark — 评估大型语言模型的逻辑推理和上下文理解能力。

•基准测试•逻辑推理

混元T1

混元T1 — 业界首个超大规模混合 Mamba 推理模型，强推理能力。

•推理模型•深度学习

Elimination Game

Elimination Game — 一种测试大语言模型在复杂社交博弈中智能性的基准测试框架，灵感来源于‘狼人杀’游戏。

•社交博弈•基准测试

M2RAG

M2RAG — 用于多模态上下文中的检索增强生成的基准测试代码库。

•多模态•检索增强生成

ZeroBench

ZeroBench — ZeroBench 是一个针对当代大型多模态模型的高难度视觉基准测试。

•多模态•基准测试

SWE-Lancer

SWE-Lancer — SWE-Lancer 是一个包含 1400 多个自由软件工程任务的基准测试，总价值 100 万美元。

•基准测试•软件工程

Humanity's Last Exam

Humanity's Last Exam — Humanity's Last Exam 是一个用于衡量大型语言模型能力的多模态基准测试。

•基准测试•多模态

Procyon AI Image Generation Benchmark

Procyon AI Image Generation Benchmark — 用于衡量设备 AI 加速器推理性能的基准测试工具。

•图像生成•基准测试

FlagPerf

FlagPerf — 开源AI芯片性能基准测试平台

•AI芯片•性能测试

Procyon AI Text Generation Benchmark

Procyon AI Text Generation Benchmark — AI文本生成性能测试工具

•AI性能测试•基准测试

Procyon Professional Benchmark Suite

Procyon Professional Benchmark Suite — 专业用户的性能测试基准套件

•性能测试•基准测试

FACTS Grounding

FACTS Grounding — 用于评估大型语言模型事实性的最新基准

•语言模型•基准测试

Procyon AI Inference Benchmark for Android

Procyon AI Inference Benchmark for Android — 衡量Android设备AI性能和质量的基准测试工具

•AI性能•基准测试

MLPerf Client

MLPerf Client — 个人电脑AI性能基准测试

•AI性能测试•基准测试

P-MMEval

P-MMEval — 多语言多任务基准测试，用于评估大型语言模型（LLMs）

•多语言•基准测试

FrontierMath

FrontierMath — AI数学极限测试基准

•数学•基准测试

PARTNR

PARTNR — 多智能体任务规划与推理的基准测试

•多智能体•自然语言处理

SimpleQA

SimpleQA — 衡量语言模型回答事实性问题能力的基准测试

•基准测试•语言模型

Cheating LLM Benchmarks

Cheating LLM Benchmarks — 研究项目，探索自动语言模型基准测试中的作弊行为。

•自然语言处理•机器学习

MLE-bench

MLE-bench — 机器学习工程能力的AI代理评估基准

•机器学习•AI代理

LLaVA-Video

LLaVA-Video — 视频指令调优与合成数据研究

•视频理解•多模态学习

g1 — 使用开源模型Llama-3.1 70b在Groq上创建类似o1的推理链

•逻辑推理•开源模型

TAG-Bench

TAG-Bench — 数据库查询的自然语言处理基准测试

•自然语言处理•数据库查询

llm-colosseum

llm-colosseum — 通过街霸3对战评估大型语言模型

•基准测试•街霸3

DCLM-baseline

DCLM-baseline — 高性能语言模型基准测试数据集

•自然语言处理•语言模型

LAMDA-TALENT

LAMDA-TALENT — 综合表格数据学习工具箱和基准测试

•表格数据•深度学习

AI Content Mate

AI Content Mate — AI驱动的Figma插件，实现文本的智能替换。

•免费•Grok-cloud

LVBench

LVBench — 长视频理解基准测试

•视频理解•基准测试

KnowEdit

KnowEdit — 知识编辑基准测试，用于评估大型语言模型的知识编辑方法。

•知识编辑•大型语言模型

CopilotKit.ai

CopilotKit.ai — 快速集成生产就绪的AI助手，提升产品智能。

•AI助手•自动化