AI新闻资讯

AI资讯

不错过全球AI革新的每一个时刻

AI日报

每天三分钟关注AI行业趋势

AI时间线

AI行业大事记

AI变现指南

最新案例

AI变现案例分享

图片合集

AI图片制作变现案例分享

视频合集

AI视频制作变现案例分享

音频合集

AI音频制作变现案例分享

文案合集

AI内容写作变现案例分享

AI教程

最新教程

免费分享最新AI教程内容

AI产品榜

AI产品排行榜

展示AI网站的总访问量排名

AI产品流量增速榜

追踪AI网站访问量增长最快产品

AI产品流量下降榜

关注访问量下降明显的AI网站

AI产品周榜

展示AI网站的周访问量排名

热门国家排行榜

美国

美国用户最喜欢的AI网站

中国

中国用户最喜欢的AI网站

印度

印度用户最喜欢的AI网站

巴西

巴西用户最喜欢的AI网站

热门分类榜

图片生成

AI图片生成网站总访问量榜单

个人助理

AI个人助理网站总访问量榜单

角色生成网站

AI角色生成网站总访问量榜单

视频生成

AI视频生成网站总访问量榜单

热门开源数据榜单

AI项目榜单

热门AI项目总Start榜单

AI项目增速榜

热门AI项目增速榜

AI开发者排名

热门AI开发者排名

AI组织排名

热门AI组织排名榜单

热门开源分类

deepseek

热门deepseek开源项目

TTS

热门TTS开源项目

LLM

热门LLM开源项目

ChatGPT

热门ChatGPT开源项目

AI开源项目库

全景图

github热门AI开源项目总览

产品库工具导航

FineWeb

高质量英文网页数据集

普通产品编程自然语言处理数据集

FineWeb数据集包含超过15万亿个经过清洗和去重的英文网页数据，来源于CommonCrawl。该数据集专为大型语言模型预训练设计，旨在推动开源模型的发展。数据集经过精心处理和筛选，以确保高质量，适用于各种自然语言处理任务。

FineWeb

FineWeb 最新流量情况

月总访问量

29742941

跳出率

44.20%

平均页面访问数

5.9

平均访问时长

00:04:44

FineWeb 访问量趋势

FineWeb 访问地理位置分布

FineWeb 流量来源

FineWeb 替代品

Nemotron-CC

Nemotron-CC — 将Common Crawl转化为精细的长期预训练数据集

•数据集•预训练

FineWeb

FineWeb — 高质量英文网页数据集

•自然语言处理•数据集

Dolphin R1

Dolphin R1 — Dolphin R1是一个用于训练推理模型的数据集，包含80万条样本。

•自然语言处理•推理模型

YuLan-Mini

YuLan-Mini — 一款高效率的2.4亿参数轻量级语言模型

•语言模型•自然语言处理

FineWeb2

FineWeb2 — 多语言预训练数据集

•多语言•预训练

OLMo 2 1124 13B Preference Mixture

OLMo 2 1124 13B Preference Mixture — 大规模多语言偏好混合数据集

•数据集•多语言

dolmino-mix-1124

dolmino-mix-1124 — 高质量数据集，用于OLMo2训练的第二阶段。

•数据集•自然语言处理

MedTrinity-25M

MedTrinity-25M — 大规模多模态医学数据集

•医学图像•多模态

DCLM-baseline

DCLM-baseline — 高性能语言模型基准测试数据集

•自然语言处理•语言模型

emo-visual-data

emo-visual-data — 表情包视觉标注数据集

•数据集•多模态学习

FlashRAG

FlashRAG — 高效的检索增强生成研究工具包

•自然语言处理•机器学习

ImageInWords

ImageInWords — 一种用于生成超详细图像描述的模型，用于训练视觉语言模型。

•图像识别•自然语言处理

WildChat

WildChat — 一个由真实世界用户与ChatGPT交互构成的语料库。

•聊天机器人•数据集

MNBVC

MNBVC — MNBVC是一个超大规模的中文语料集，对标chatGPT训练的40T数据

•自然语言处理•中文语料库

En3D

En3D — 3D人物生成模型

•自然语言处理•模型

Distil-Whisper

Distil-Whisper — 模型和数据集的集合

•模型•数据集

RoleLLM

RoleLLM — 大型语言模型角色扮演框架

•自然语言处理•角色扮演

I2VGen-XL

I2VGen-XL — AI模型库与数据集平台

•AI模型•数据集

Inst-Inpaint

Inst-Inpaint — 基于自然语言输入的图像修复算法

•图像修复•自然语言处理

DeepSeek-V3-0324

DeepSeek-V3-0324 — 一个强大的文本生成模型，适用于多种对话应用。

•文本生成•对话系统

Reka Flash 3

Reka Flash 3 — 一款 21B 通用推理模型，适合低延迟应用。

•自然语言处理•开源

o1-pro

o1-pro — o1-pro 模型通过强化学习提升复杂推理能力，提供更优答案。

•自然语言处理•文本生成

Light-R1-14B-DS

Light-R1-14B-DS — 一款开源的14B参数量的数学模型，通过强化学习训练，性能卓越。

•强化学习•数学模型

理想同学网页版

理想同学网页版 — 理想同学是一款智能聊天助手，提供便捷的对话服务和智能交互体验。

•智能聊天•自然语言处理

Sesame AI

Sesame AI — Sesame AI 是一款先进的语音合成平台，能够生成自然对话式语音并具备情感智能。

•语音合成•自然语言处理

BashBuddy

BashBuddy — BashBuddy 让你能够自然地输入命令，无需担心参数或语法。

•命令行工具•自然语言处理

Responses API

Responses API — OpenAI API 的 Responses 功能，用于创建和管理模型的响应。

•自然语言处理•API

OpenAI Built-in Tools

OpenAI Built-in Tools — OpenAI 提供的内置工具，用于扩展模型的能力，如网络搜索和文件搜索。

•自然语言处理•模型增强

Awesome-LLM-Post-training

Awesome-LLM-Post-training — 一个关于大型语言模型（LLM）后训练方法的教程、调查和指南资源库。

•LLM•后训练

Gemini Embedding 文本嵌入模型

Gemini Embedding 文本嵌入模型 — Gemini Embedding 是一种先进的文本嵌入模型，通过 Gemini API 提供强大的语言理解能力。

•文本嵌入•自然语言处理