近日,人工智能研究组织Artificial Analysis推出了一项名为"Artificial Analysis Text to Image Leaderboard & Arena"(文本到图像排行榜与竞技场)的新举措,旨在全面评估这些模型的性能。
评测平台概述
自两年前引入基于扩散的图像生成器以来,AI图像模型已经达到了接近照片级的质量。Artificial Analysis Text to Image Leaderboard & Arena致力于比较开源和专有的图像生成模型,根据人类偏好来确定它们的效果和准确性。
该平台的排行榜基于通过Artificial Analysis Image Arena收集的超过45,000个人类图像偏好,使用ELO评分系统进行更新。评测涵盖了多个领先的图像模型,包括Midjourney、OpenAI的DALL·E、Stable Diffusion和Playground AI等。
评测方法
平台采用众包方式收集大规模人类偏好数据。参与者会看到一个提示词和两张生成的图像,然后选择最符合提示词的那张。每个模型会生成700多张涵盖不同风格和类别的图像,如人物肖像、群体、动物、自然和艺术等。收集的偏好数据用于计算每个模型的ELO分数,从而形成比较排名。
初步洞察
排行榜显示,虽然专有模型在性能上领先,但开源替代方案正变得越来越具有竞争力。Midjourney、Stable Diffusion3和DALL·E3HD等模型位居榜首,而开源模型Playground AI v2.5也取得了显著进展,超过了OpenAI的DALL·E3。
值得注意的是,图像生成模型的格局正在迅速变化。例如,去年还处于领先地位的DALL·E2,现在在竞技场中被选中的比例不到25%,已跌至排名最低的模型之列。
公众参与
Artificial Analysis鼓励公众参与这项评测。用户可以访问Hugging Face上的排行榜,并通过Image Arena参与排名过程。完成30次图像选择后,参与者可以查看个性化的模型排名,从而获得针对自己偏好的洞察。
这一举措为理解和改进AI图像生成模型迈出了重要一步。通过利用人类偏好和严格的众包方法,该平台为领先图像模型的比较性能提供了宝贵的见解。随着该领域的不断发展,这类平台将在指导AI驱动的图像生成的未来发展和创新方面发挥关键作用。
榜单链接地址:https://huggingface.co/spaces/ArtificialAnalysis/Text-to-Image-Leaderboard