Best AI Websites & Tools

AI产品榜

AI产品榜

ImagenHub

ImagenHub:标准化条件图像生成模型的推理和评估

普通产品图像条件图像生成模型评估

ImagenHub是一个一站式库,用于标准化所有条件图像生成模型的推理和评估。该项目首先定义了七个突出的任务并创建了高质量的评估数据集。其次,我们构建了一个统一的推理管道来确保公平比较。第三,我们设计了两个人工评估指标,即语义一致性和感知质量,并制定了全面的指南来评估生成的图像。我们训练专家评审员根据提出的指标来评估模型输出。该人工评估在76%的模型上实现了高的评估者间一致性。我们全面地评估了约30个模型,并观察到三个关键发现:(1)现有模型的性能普遍不令人满意,除了文本引导的图像生成和主题驱动的图像生成外,74%的模型整体得分低于0.5。(2)我们检查了已发表论文中的声明,发现83%的声明是正确的。(3)除了主题驱动的图像生成外,现有的自动评估指标都没有高于0.2的斯皮尔曼相关系数。未来,我们将继续努力评估新发布的模型,并更新排行榜以跟踪条件图像生成领域的进展。

ImagenHub

ImagenHub是一个标准化条件图像生成模型评估的平台
研究人员和开发者可以使用它来公平比较不同模型的性能
并跟踪该领域的进展。

ImagenHub收集了七个主要的条件图像生成任务
包括文本引导的图像生成、掩码引导的图像编辑、主题驱动的图像生成等
为研究人员提供了全面的评估数据集。
ImagenHub建立了统一的推理管道
确保不同模型在相同的评估流程下进行公平比较。

ImagenHub 最新流量情况

月总访问量

7958

跳出率

51.55%

平均页面访问数

1.2

平均访问时长

00:00:43

ImagenHub 访问量趋势

ImagenHub 访问地理位置分布

ImagenHub 流量来源

ImagenHub 替代品

hallucination-leaderboard — 一个用于比较大型语言模型在总结短文档时产生幻觉的排行榜。

其他•LLM•幻觉检测

ZeroBench — ZeroBench 是一个针对当代大型多模态模型的高难度视觉基准测试。

图像•多模态•基准测试

SWE-Lancer — SWE-Lancer 是一个包含 1400 多个自由软件工程任务的基准测试，总价值 100 万美元。

国外精选•基准测试•软件工程

OpenScholar_ExpertEval — 专家评估界面和数据评估脚本

教育•专家评估•数据评估

SDXL_EcomID_ComfyUI — ComfyUI的EcomID原生支持插件

图像•EcomID•ComfyUI

Cheating LLM Benchmarks — 研究项目，探索自动语言模型基准测试中的作弊行为。

编程•自然语言处理•机器学习

Anthropic Console — AI应用开发加速器

生产力•AI开发•自动化测试

FiddleCube — 快速生成问答数据，评估语言模型。

国外精选•数据科学•模型评估

Frontier Safety Framework — DeepMind推出的AI安全框架，旨在识别和减轻高级AI模型的未来风险。

编程•AI安全•风险评估

Vision Arena — Vision Arena是一个面向计算机视觉领域的开源模型测试平台

图像•计算机视觉•模型评估

phixtral-2x2_8 — 混合专家模型，性能优于单个专家模型

生产力•混合专家模型•文本生成

Algomax — 简化LLM和RAG模型输出评估，提供对定性指标的洞察

生产力•LLM•RAG

Manot — 洞察管理平台

生产力•计算机视觉•机器学习