FLOAT

基于流匹配的音频驱动说话人像视频生成方法

普通产品图像人像动画音频驱动

FLOAT是一种音频驱动的人像视频生成方法，它基于流匹配生成模型，将生成建模从基于像素的潜在空间转移到学习到的运动潜在空间，实现了时间上一致的运动设计。该技术引入了基于变换器的向量场预测器，并具有简单而有效的逐帧条件机制。此外，FLOAT支持语音驱动的情感增强，能够自然地融入富有表现力的运动。广泛的实验表明，FLOAT在视觉质量、运动保真度和效率方面均优于现有的音频驱动说话人像方法。

Best AI Websites & Tools

FLOAT

FLOAT 最新流量情况

FLOAT 访问量趋势

FLOAT 访问地理位置分布

FLOAT 流量来源

FLOAT 替代品

FLOAT — 基于流匹配的音频驱动说话人像视频生成方法

JoyGen — JoyGen 是一种音频驱动的 3D 深度感知的说话人脸视频编辑技术。

JoyVASA — 基于扩散模型的音频驱动人像和动物图像动画技术

Hallo2 — 高分辨率、长时音频驱动的人像图像动画技术

Loopy model — Loopy，仅凭音频驱动肖像头像，实现逼真动态。

CyberHost — 端到端音频驱动的人体动画框架

EchoMimic — 生成逼真动态人像视频的先进技术

AccVideo — 加速视频扩散模型，生成速度提升 8.5 倍。

Video-T1 — 通过测试时间缩放显著提升视频生成质量。

Gemini 2.5 — Gemini 2.5 是谷歌最智能的 AI 模型，具备推理能力。

Fin-R1 — 通过强化学习驱动的金融推理大模型。

混元T1 — 业界首个超大规模混合 Mamba 推理模型，强推理能力。

Reka Flash 3 — 一款 21B 通用推理模型，适合低延迟应用。

o1-pro — o1-pro 模型通过强化学习提升复杂推理能力，提供更优答案。

Orpheus TTS — 一个开源文本转语音系统，致力于实现人类语音的自然化。

Mistral Small 3.1 — 增强文本与视觉任务处理能力的开源模型。

Cohere Command — Cohere Command 是专为企业设计的高效能语言模型。

OpenJobs AI — 一个帮助用户寻找工作的智能平台。

Cal AI APP — 通过拍照轻松追踪卡路里。

Light-R1 — Light-R1 是一个专注于长链推理（Long COT）的开源项目，通过课程式 SFT、DPO 和 RL 提供从零开始的训练方法。

Gemini Robotics — 基于Gemini 2.0的机器人模型，将AI带入物理世界，具备视觉、语言和动作能力。

AITattoo — AI Tattoo Generator 是一款利用人工智能技术快速生成个性化纹身设计的在线工具。

Sesame CSM — 一个用于生成对话式语音的模型，支持从文本和音频输入生成高质量的语音。

AISFXGen — AISFXGen 是一个基于 AI 技术的音效生成器，支持文本和视频生成音效。

理想同学网页版 — 理想同学是一款智能聊天助手，提供便捷的对话服务和智能交互体验。

Sudowrite Muse — 专为虚构写作设计的人工智能模型，帮助作者创作高质量的小说内容。

Sesame AI — Sesame AI 是一款先进的语音合成平台，能够生成自然对话式语音并具备情感智能。

Selene API — Selene API 是一款用于评估 AI 应用性能的先进工具，提供精准的评分和反馈。

IMM — Inductive Moment Matching 是一种新型的生成模型，用于高质量图像生成。

VACE — VACE 是一款集视频创作与编辑于一体的人工智能模型。