AI新闻资讯

AI资讯

不错过全球AI革新的每一个时刻

AI日报

每天三分钟关注AI行业趋势

AI时间线

AI行业大事记

AI变现指南

最新案例

AI变现案例分享

图片合集

AI图片制作变现案例分享

视频合集

AI视频制作变现案例分享

音频合集

AI音频制作变现案例分享

文案合集

AI内容写作变现案例分享

AI教程

最新教程

免费分享最新AI教程内容

AI产品榜

AI产品排行榜

展示AI网站的总访问量排名

AI产品流量增速榜

追踪AI网站访问量增长最快产品

AI产品流量下降榜

关注访问量下降明显的AI网站

AI产品周榜

展示AI网站的周访问量排名

热门国家排行榜

美国

美国用户最喜欢的AI网站

中国

中国用户最喜欢的AI网站

印度

印度用户最喜欢的AI网站

巴西

巴西用户最喜欢的AI网站

热门分类榜

图片生成

AI图片生成网站总访问量榜单

个人助理

AI个人助理网站总访问量榜单

角色生成网站

AI角色生成网站总访问量榜单

视频生成

AI视频生成网站总访问量榜单

热门开源数据榜单

AI项目榜单

热门AI项目总Start榜单

AI项目增速榜

热门AI项目增速榜

AI开发者排名

热门AI开发者排名

AI组织排名

热门AI组织排名榜单

热门开源分类

deepseek

热门deepseek开源项目

TTS

热门TTS开源项目

LLM

热门LLM开源项目

ChatGPT

热门ChatGPT开源项目

AI开源项目库

全景图

github热门AI开源项目总览

产品库工具导航

PixelProse

大规模图像描述数据集，提供超过16M的合成图像描述。

普通产品其他图像描述视觉-语言模型

PixelProse是一个由tomg-group-umd创建的大规模数据集，它利用先进的视觉-语言模型Gemini 1.0 Pro Vision生成了超过1600万个详细的图像描述。这个数据集对于开发和改进图像到文本的转换技术具有重要意义，可以用于图像描述生成、视觉问答等任务。

PixelProse

PixelProse 最新流量情况

月总访问量

27175375

跳出率

44.30%

平均页面访问数

5.8

平均访问时长

00:04:57

PixelProse 访问量趋势

PixelProse 访问地理位置分布

PixelProse 流量来源

PixelProse 替代品

PixelProse — 大规模图像描述数据集，提供超过16M的合成图像描述。

•图像描述•视觉-语言模型

PaliGemma2-3b-pt-224 — PaliGemma 2是一款强大的视觉-语言模型，支持多种语言的图像和文本处理任务。

•视觉-语言模型•多语言支持

PaliGemma2-3b-pt-448 — PaliGemma 2是一个强大的视觉-语言模型，支持多种视觉语言任务。

•视觉-语言模型•多语言支持

Aya Vision 32B — Aya Vision 32B 是一个支持多语言的视觉语言模型，适用于OCR、图像描述、视觉推理等多种用途。

•多语言•视觉语言

Aya Vision 8B — 8亿参数的多语言视觉语言模型，支持OCR、图像描述、视觉推理等功能

•多语言•视觉语言模型

Level-Navi Agent-Search — Level-Navi Agent是一个无需训练即可使用的框架，利用大语言模型进行深度查询理解和精准搜索。

•大语言模型•网络搜索

Figure AI Helix — Helix 是一款用于通用人形机器人控制的视觉-语言-行动模型。

•机器人技术•视觉-语言模型

Signs — 一个利用人工智能帮助学习和贡献美国手语（ASL）的平台。

•手语学习•数据集

Dolphin R1 — Dolphin R1是一个用于训练推理模型的数据集，包含80万条样本。

•自然语言处理•推理模型

MILS — LLMs 无需任何培训就能看见和听见

•多模态•图像描述

SmolVLM-500M-Instruct — SmolVLM-500M 是一个轻量级多模态模型，能够处理图像和文本输入并生成文本输出。

•多模态•图像描述

Nemotron-CC — 将Common Crawl转化为精细的长期预训练数据集

•数据集•预训练

llm-datasets — 高质量的数据集、工具和概念，用于大型语言模型的微调。

•LLM•数据集

InternVL2_5-26B-MPO — 多模态大型语言模型，提升视觉与语言的交互能力。

•多模态•大型语言模型

AGIBOT WORLD

AGIBOT WORLD — 大规模机器人学习数据集，推动多用途机器人策略发展。

•机器人学习•数据集

InternVL2_5-1B-MPO — 多模态大型语言模型，提升视觉和语言的综合理解能力

•多模态•大型语言模型

PicWordify — 自动化为网站图片生成描述性文本

•SEO•可访问性

RapBank — 首个说唱音乐生成数据集

•说唱音乐•数据集

RLVR-GSM-MATH-IF-Mixed-Constraints — 用于强化学习验证的数学问题数据集

•数学•教育

MAmmoTH-VL

MAmmoTH-VL — 大规模多模态推理与指令调优平台

•多模态•推理

FineWeb2 — 多语言预训练数据集

•多语言•预训练

OLMo 2 1124 13B Preference Mixture — 大规模多语言偏好混合数据集

•数据集•多语言

ScholarQABench — 科学文献综合评估平台

•科学文献•评估平台

dolmino-mix-1124 — 高质量数据集，用于OLMo2训练的第二阶段。

•数据集•自然语言处理

Tülu 3 — 开源的先进语言模型后训练框架

•语言模型•后训练

WorkflowLLM — 数据驱动的框架，增强大型语言模型的工作流编排能力

•大型语言模型•工作流编排

GenXD — 生成任何3D和4D场景的先进框架

•3D生成•4D生成

Sparsh — 自监督触觉表示，用于基于视觉的触觉传感。

•自监督学习•触觉传感

ROCKET-1 — 掌握开放世界交互的视觉-时间上下文提示模型

•视觉-语言模型•具身决策

Helpful DoggyBot — 四足机器人室内移动操作系统

•四足机器人•移动操作