Best AI Websites & Tools

AI产品榜

AI产品榜

LiveFood

LiveFood是一个美食视频高光检测数据集和全局原型编码模型

普通产品视频视频数据集

LiveFood是一个包含超过5100个美食视频的数据集,视频包括食材、烹饪、呈现和食用四个领域,所有视频均由专业工人精细注释,并采用严格的双重检查机制进一步保证注释质量。我们还提出了全局原型编码(GPE)模型来处理这个增量学习问题,与传统技术相比获得了竞争性的性能。

LiveFood

包含超过5100个精细注释的美食视频
涵盖食材、烹饪、呈现和食用四个领域
高质量的视频注释
全局原型编码(GPE)模型

视频高光检测
增量学习

使用LiveFood数据集训练视频高光检测模型
基于LiveFood的四个领域数据进行域增量学习实验
利用LiveFood的丰富注释数据进行视频理解研究

LiveFood 替代品

GenXD — 生成任何3D和4D场景的先进框架

图像•3D生成•4D生成

SA-V Dataset — 用于训练通用目标分割模型的视频数据集

图像•计算机视觉•目标分割

Aria Everyday Activities — Aria每日活动数据集,加速机器感知和人工智能发展

其他•数据集•视频

ANIM-400K — 大规模视频自动配音数据集

视频•视频•数据集

CelebV-Text — 大规模人脸文本-视频数据集

视频•人脸•文本

Signs — 一个利用人工智能帮助学习和贡献美国手语（ASL）的平台。

国外精选•手语学习•数据集

Pippo — Pippo 是一个从单张照片生成高分辨率多人视角视频的生成模型。

图像•图像生成•多视角视频

VideoWorld — VideoWorld是一个探索从无标签视频中学习知识的深度生成模型。

视频•计算机视觉•知识学习

Dolphin R1 — Dolphin R1是一个用于训练推理模型的数据集，包含80万条样本。

编程•自然语言处理•推理模型

Video Depth Anything — Video Depth Anything: Consistent Depth Estimation for Super-Long Videos

视频•深度学习•视频处理

熊猫字幕 — 提供字幕下载、解析、生成、翻译及格式转换等功能的一站式字幕服务平台

中文精选•字幕•视频

swiftnotes.ai — 将YouTube视频快速转换为AI生成的笔记，节省时间，专注学习。

教育•笔记•教育

Hailuo

Hailuo — 您的终极智能解决方案AI助手。

国外精选•AI助手•智能解决方案

Nemotron-CC — 将Common Crawl转化为精细的长期预训练数据集

编程•数据集•预训练

ViTPose — 基于Transformer实现的ViTPose模型集合

图像•计算机视觉•人体姿态估计

llm-datasets — 高质量的数据集、工具和概念，用于大型语言模型的微调。

编程•LLM•数据集

TryOffAnyone — 从穿着人身上生成平铺布料的模型

图像•深度学习•图像生成

AGIBOT WORLD

AGIBOT WORLD — 大规模机器人学习数据集，推动多用途机器人策略发展。

其他•机器人学习•数据集

FlagAI

FlagAI — 一站式大模型算法、模型及优化工具开源项目

编程•大模型•开源项目

video-analyzer — 视频分析工具，结合Llama视觉模型和OpenAI Whisper进行本地视频描述生成。

视频•视频分析•计算机视觉

MegaSaM — 从日常动态视频中快速、准确地估计相机和密集结构

图像•结构从运动•单目SLAM

NVIDIA Jetson Orin Nano Super Developer Kit

NVIDIA Jetson Orin Nano Super Developer Kit — NVIDIA推出的最经济的生成型AI超级计算机

生产力•NVIDIA Jetson•生成型AI

Diffusion-Vas — 视频非可见物体分割与内容补全的先进研究

视频•视频分割•非可见物体

RapBank — 首个说唱音乐生成数据集

音乐•说唱音乐•数据集

RLVR-GSM-MATH-IF-Mixed-Constraints — 用于强化学习验证的数学问题数据集

其他•数学•教育

StableAnimator

StableAnimator — 高质量身份保留的人像动画合成工具。

视频•视频合成•人像动画

MAmmoTH-VL

MAmmoTH-VL — 大规模多模态推理与指令调优平台

其他•多模态•推理

InternViT-300M-448px-V2_5 — 基于InternViT-300M-448px的增强版本，提升视觉特征提取能力。

图像•视觉特征提取•多模态学习

FineWeb2 — 多语言预训练数据集

编程•多语言•预训练