Spirit LM

多模态语言模型，融合文本和语音

普通产品生产力多模态语言模型

Spirit LM是一个基础多模态语言模型，能够自由混合文本和语音。该模型基于一个7B预训练的文本语言模型，通过持续在文本和语音单元上训练来扩展到语音模式。语音和文本序列被串联为单个令牌流，并使用一个小的自动策划的语音-文本平行语料库，采用词级交错方法进行训练。Spirit LM有两个版本：基础版使用语音音素单元（HuBERT），而表达版除了音素单元外，还使用音高和风格单元来模拟表达性。对于两个版本，文本都使用子词BPE令牌进行编码。该模型不仅展现了文本模型的语义能力，还展现了语音模型的表达能力。此外，我们展示了Spirit LM能够在少量样本的情况下跨模态学习新任务（例如ASR、TTS、语音分类）。

打开网站

Spirit LM 最新流量情况

月总访问量

1773

跳出率

57.06%

平均页面访问数

1.0

平均访问时长

00:00:00

Spirit LM 访问量趋势

Spirit LM 访问地理位置分布

AI资讯

AI日报

AI时间线

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图

Spirit LM

Spirit LM 最新流量情况

Spirit LM 访问量趋势

Spirit LM 访问地理位置分布

Spirit LM 流量来源

Spirit LM 替代品

Spirit LM — 多模态语言模型，融合文本和语音

Inception Labs — Inception Labs 推出新一代扩散式大语言模型，提供极速、高效和高质量的语言生成能力。

Gemini 2.0 Flash-Lite — Gemini 2.0 Flash-Lite 是高效的语言模型，专为长文本处理和多种应用场景优化。

Phi-4-multimodal-instruct — Phi-4-multimodal-instruct 是微软开发的轻量级多模态基础模型，支持文本、图像和音频输入。

DeepSeek Japanese — DeepSeek 是一款先进的 AI 语言模型，擅长逻辑推理、数学和编程任务，提供免费使用。

MiniCPM-o-2_6 — MiniCPM-o 2.6是一个强大的多模态大型语言模型，适用于视觉、语音和多模态直播。

MiniCPM-o — MiniCPM-o 2.6：一款GPT-4o级别，可在手机上实现视觉、语音和多模态直播的MLLM。

The Language of Motion — 3D人体动作的言语和非言语语言统一模型

ultravox-v0_4_1-llama-3_1-70b — 多模态语音大型语言模型

EMOVA — 情感丰富的多模态语言模型

ell — 轻量级语言模型编程库，将提示视为函数。

Mini-Omni — 开源多模态大型语言模型，支持实时语音输入和流式音频输出。

Enchanted — 与私有自托管语言模型对话的iOS/macOS应用

GPT4o.so — 革命性AI技术，多模态智能互动

VideoLLaMA2-7B — 大型视频-语言模型，提供视觉问答和视频字幕生成。

Gemini 1.5 Flash — Google 一款轻量级、高效能的AI模型，专为大规模高频任务设计。

Any GPT — 多模态大型语言模型

Qwen-VL — 通用型视觉语言模型

imp-v1-3b — 一款强大的多模态小语言模型

SpeechGPT — 多模态语言模型

honeybee — 多模态语言模型预测网络

TinyGPT-V — 高效多模态大型语言模型

ml-ferret — 端到端MLLM，实现精准引用和定位

CLoT — 发现 LLM 的创意与幽默潜力

DreamLLM — 多模态综合理解与创作

Amazon Nova Sonic — 亚马逊全新基础模型理解语气、语调与节奏，提升人机对话自然度。

Llama 3.1 Nemotron Ultra 253B — 一款高效的推理与聊天大语言模型。

DreamActor-M1 — 基于 DiT 的人类图像动画框架，实现精细控制与长效一致性。

Gemini 2.5 — Gemini 2.5 是谷歌最智能的 AI 模型，具备推理能力。

Fin-R1 — 通过强化学习驱动的金融推理大模型。