Tarsier

Tarsier 是由字节跳动推出的用于生成高质量视频描述的大型视频语言模型。

普通产品视频视频描述视频理解

Tarsier 是由字节跳动研究团队开发的一系列大规模视频语言模型，旨在生成高质量的视频描述，并具备强大的视频理解能力。该模型通过两阶段训练策略（多任务预训练和多粒度指令微调）显著提升了视频描述的精度和细节。其主要优点包括高精度的视频描述能力、对复杂视频内容的理解能力以及在多个视频理解基准测试中取得的 SOTA（State-of-the-Art）结果。Tarsier 的背景基于对现有视频语言模型在描述细节和准确性上的不足进行改进，通过大规模高质量数据训练和创新的训练方法，使其在视频描述领域达到了新的高度。该模型目前未明确定价，主要面向学术研究和商业应用，适合需要高质量视频内容理解和生成的场景。

AI资讯

AI日报

AI时间线

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图

Tarsier

Tarsier 最新流量情况

Tarsier 访问量趋势

Tarsier 访问地理位置分布

Tarsier 流量来源

Tarsier 替代品

Tarsier — Tarsier 是由字节跳动推出的用于生成高质量视频描述的大型视频语言模型。

VideoRAG — VideoRAG 是一个用于处理极长上下文视频的检索增强型生成框架。

MILS — LLMs 无需任何培训就能看见和听见

Apollo-LMMs — 大型多模态模型中视频理解的探索

LongVU — 长视频语言理解的时空自适应压缩模型

Goldfish — 视频理解的先进模型

ShareGPT4Video — 提升视频理解和生成的AI模型。

SpotBuzz — AI生成的视频和图像描述

AccVideo — 加速视频扩散模型，生成速度提升 8.5 倍。

Video-T1 — 通过测试时间缩放显著提升视频生成质量。

Gemini 2.5 — Gemini 2.5 是谷歌最智能的 AI 模型，具备推理能力。

Fin-R1 — 通过强化学习驱动的金融推理大模型。

混元T1 — 业界首个超大规模混合 Mamba 推理模型，强推理能力。

Reka Flash 3 — 一款 21B 通用推理模型，适合低延迟应用。

o1-pro — o1-pro 模型通过强化学习提升复杂推理能力，提供更优答案。

Orpheus TTS — 一个开源文本转语音系统，致力于实现人类语音的自然化。

Mistral Small 3.1 — 增强文本与视觉任务处理能力的开源模型。

Cohere Command — Cohere Command 是专为企业设计的高效能语言模型。

OpenJobs AI — 一个帮助用户寻找工作的智能平台。

Cal AI APP — 通过拍照轻松追踪卡路里。

Light-R1 — Light-R1 是一个专注于长链推理（Long COT）的开源项目，通过课程式 SFT、DPO 和 RL 提供从零开始的训练方法。

Gemini Robotics — 基于Gemini 2.0的机器人模型，将AI带入物理世界，具备视觉、语言和动作能力。

AITattoo — AI Tattoo Generator 是一款利用人工智能技术快速生成个性化纹身设计的在线工具。

Sesame CSM — 一个用于生成对话式语音的模型，支持从文本和音频输入生成高质量的语音。

AISFXGen — AISFXGen 是一个基于 AI 技术的音效生成器，支持文本和视频生成音效。

理想同学网页版 — 理想同学是一款智能聊天助手，提供便捷的对话服务和智能交互体验。

Sudowrite Muse — 专为虚构写作设计的人工智能模型，帮助作者创作高质量的小说内容。

Sesame AI — Sesame AI 是一款先进的语音合成平台，能够生成自然对话式语音并具备情感智能。

Selene API — Selene API 是一款用于评估 AI 应用性能的先进工具，提供精准的评分和反馈。

IMM — Inductive Moment Matching 是一种新型的生成模型，用于高质量图像生成。