AI新闻资讯

AI资讯

不错过全球AI革新的每一个时刻

AI日报

每天三分钟关注AI行业趋势

AI时间线

AI行业大事记

AI变现指南

最新案例

AI变现案例分享

图片合集

AI图片制作变现案例分享

视频合集

AI视频制作变现案例分享

音频合集

AI音频制作变现案例分享

文案合集

AI内容写作变现案例分享

AI教程

最新教程

免费分享最新AI教程内容

AI产品榜

AI产品排行榜

展示AI网站的总访问量排名

AI产品流量增速榜

追踪AI网站访问量增长最快产品

AI产品流量下降榜

关注访问量下降明显的AI网站

AI产品周榜

展示AI网站的周访问量排名

热门国家排行榜

美国

美国用户最喜欢的AI网站

中国

中国用户最喜欢的AI网站

印度

印度用户最喜欢的AI网站

巴西

巴西用户最喜欢的AI网站

热门分类榜

图片生成

AI图片生成网站总访问量榜单

个人助理

AI个人助理网站总访问量榜单

角色生成网站

AI角色生成网站总访问量榜单

视频生成

AI视频生成网站总访问量榜单

热门开源数据榜单

AI项目榜单

热门AI项目总Start榜单

AI项目增速榜

热门AI项目增速榜

AI开发者排名

热门AI开发者排名

AI组织排名

热门AI组织排名榜单

热门开源分类

deepseek

热门deepseek开源项目

TTS

热门TTS开源项目

LLM

热门LLM开源项目

ChatGPT

热门ChatGPT开源项目

AI开源项目库

全景图

github热门AI开源项目总览

产品库工具导航

KnowEdit

知识编辑基准测试，用于评估大型语言模型的知识编辑方法。

普通产品其他知识编辑大型语言模型

KnowEdit是一个专注于大型语言模型（LLMs）的知识编辑基准测试。它提供了一个综合的评估框架，用于测试和比较不同的知识编辑方法在修改特定领域内LLMs行为时的有效性，同时保持跨各种输入的整体性能。KnowEdit基准测试包括六个不同的数据集，涵盖了事实操作、情感修改和幻觉生成等多种编辑类型。该基准测试旨在帮助研究者和开发者更好地理解和改进知识编辑技术，推动LLMs的持续发展和应用。

KnowEdit

KnowEdit 最新流量情况

月总访问量

暂无数据

跳出率

暂无数据

平均页面访问数

暂无数据

平均访问时长

暂无数据

KnowEdit 访问量趋势

暂无访问量数据

KnowEdit 访问地理位置分布

暂无地理位置分布数据

KnowEdit 流量来源

暂无流量来源数据

KnowEdit 替代品

KnowEdit

KnowEdit — 知识编辑基准测试，用于评估大型语言模型的知识编辑方法。

•知识编辑•大型语言模型

MLPerf Client

MLPerf Client — 个人电脑AI性能基准测试

•AI性能测试•基准测试

EasyEdit

EasyEdit — 易用的大规模语言模型知识编辑框架

•大型语言模型•知识编辑

Elimination Game

Elimination Game — 一种测试大语言模型在复杂社交博弈中智能性的基准测试框架，灵感来源于‘狼人杀’游戏。

•社交博弈•基准测试

M2RAG

M2RAG — 用于多模态上下文中的检索增强生成的基准测试代码库。

•多模态•检索增强生成

SWE-RL

SWE-RL — 通过强化学习提升大型语言模型在开源软件演变中的推理能力

•强化学习•大型语言模型

Coding-Tutor

Coding-Tutor — 探索大型语言模型作为编程辅导工具的潜力，提出Trace-and-Verify工作流。

•编程教育•大型语言模型

ZeroBench

ZeroBench — ZeroBench 是一个针对当代大型多模态模型的高难度视觉基准测试。

•多模态•基准测试

SWE-Lancer

SWE-Lancer — SWE-Lancer 是一个包含 1400 多个自由软件工程任务的基准测试，总价值 100 万美元。

•基准测试•软件工程

Goedel-Prover

Goedel-Prover — Goedel-Prover 是一款开源的自动化定理证明模型，专注于数学问题的形式化证明。

•自动化定理证明•数学

OmniParser-v2.0

OmniParser-v2.0 — OmniParser 是一款通用屏幕解析工具，可将 UI 截图转换为结构化格式，提升基于 LLM 的 UI 代理性能。

•屏幕解析•图像识别

Mistral-Small-24B-Instruct-2501

Mistral-Small-24B-Instruct-2501 — Mistral Small 24B 是一款多语言、高性能的指令微调型大型语言模型，适用于多种应用场景。

•大型语言模型•多语言

Humanity's Last Exam

Humanity's Last Exam — Humanity's Last Exam 是一个用于衡量大型语言模型能力的多模态基准测试。

•基准测试•多模态

DeepSeek-R1-Distill-Llama-70B

DeepSeek-R1-Distill-Llama-70B — DeepSeek-R1-Distill-Llama-70B 是一款基于强化学习优化的大型语言模型，专注于推理和对话能力。

•大型语言模型•强化学习

Procyon AI Image Generation Benchmark

Procyon AI Image Generation Benchmark — 用于衡量设备 AI 加速器推理性能的基准测试工具。

•图像生成•基准测试

InternVL2_5-78B-MPO

InternVL2_5-78B-MPO — 这是一个先进的多模态大型语言模型系列，展示了卓越的整体性能。

•多模态•大型语言模型

self-adaptive-llms

self-adaptive-llms — 一个实时适应未见任务的自适应大型语言模型框架。

•大型语言模型•自适应

InternLM3-8B-Instruct

InternLM3-8B-Instruct — InternLM3-8B-Instruct是一个开源的80亿参数指令模型，用于通用用途和高级推理。

•大型语言模型•开源

MinMo

MinMo — MinMo是一款多模态大型语言模型，用于无缝语音交互。

•语音交互•多模态

Dria-Agent-a-3B

Dria-Agent-a-3B — 基于Qwen2.5-Coder系列的大型语言模型，专注于代理应用。

•大型语言模型•代理应用

Dria-Agent-a-7B

Dria-Agent-a-7B — 一个基于Qwen2.5-Coder系列训练的大型语言模型，专注于代理应用。

•大型语言模型•编程辅助

Dria-Agent-α

Dria-Agent-α — Dria-Agent-α是基于Python的大型语言模型工具交互框架。

•大型语言模型•Python

Llama-3-Patronus-Lynx-8B-Instruct-Q4_K_M-GGUF

Llama-3-Patronus-Lynx-8B-Instruct-Q4_K_M-GGUF — 基于特定模型的量化大型语言模型，适用于自然语言处理等任务。

•大型语言模型•量化模型

InternVL2_5-38B-MPO

InternVL2_5-38B-MPO — InternVL2.5-MPO系列模型，基于InternVL2.5和混合偏好优化，展现卓越性能。

•多模态•大型语言模型

Agent Laboratory

Agent Laboratory — Agent Laboratory是一个端到端的自主研究工作流，旨在协助人类研究人员实施研究想法。

•研究辅助•文献综述

InternVL2_5-26B-MPO-AWQ

InternVL2_5-26B-MPO-AWQ — 先进的多模态大型语言模型，具备卓越的多模态推理能力。

•多模态•大型语言模型

AnyParser Pro

AnyParser Pro — AnyParser Pro 是一款能够快速准确地从 PDF、PPT 和图像中提取内容的大型语言模型。

•文档解析•大型语言模型

Sonus-1

Sonus-1 — Sonus-1：开启大型语言模型（LLMs）的新时代

•大型语言模型•自然语言处理

InternVL2_5-26B-MPO

InternVL2_5-26B-MPO — 多模态大型语言模型，提升视觉与语言的交互能力。

•多模态•大型语言模型

InternVL2_5-8B-MPO-AWQ

InternVL2_5-8B-MPO-AWQ — 多模态大型语言模型，提升视觉与语言的交互能力

•多模态•大型语言模型