AI新闻资讯

AI资讯

不错过全球AI革新的每一个时刻

AI日报

每天三分钟关注AI行业趋势

AI时间线

AI行业大事记

Al硬件

列出所有AI硬件产品。

AI变现指南

图片合集

AI图片制作变现案例分享

视频合集

AI视频制作变现案例分享

音频合集

AI音频制作变现案例分享

文案合集

AI内容写作变现案例分享

AI教程

AI产品榜

AI产品排行榜

展示AI网站的总访问量排名

AI产品流量增速榜

追踪AI网站访问量增长最快产品

AI产品流量下降榜

关注访问量下降明显的AI网站

AI产品周榜

展示AI网站的周访问量排名

AI开源项目库

全景图

github热门AI开源项目总览

产品库工具导航

Sesame发布CSM模型：实时情感定制 AI语音合成迈向新高度

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Mar 14, 2025

518

3月13日，Sesame公司推出其最新语音合成模型CSM，引发业界关注。据官方介绍，CSM采用端到端基于Transformer的多模态学习架构，能够理解上下文信息，生成自然且富有情感的语音，声音效果贴近真人，令人惊艳。

该模型支持实时语音生成，可处理文本和音频输入，用户还能通过调整参数控制语气、语调、节奏及情感等特性，展现高度灵活性。

CSM被认为是AI语音技术的重要突破。其语音自然度极高，甚至“无法分辨是人工合成还是真人”。有用户录制视频展示CSM几近无延迟的表现，称其为“体验过的最强模型”。此前，Sesame曾开源小版本CSM-1B，支持多轮对话生成连贯语音，获得广泛好评。

目前，CSM主要针对英语训练，表现优异，但在多语言支持上仍有限制。目前其不支持中文，但期待未来扩展。

Sesame表示将部分开源研究成果，社区开发者已在GitHub上热议其潜力。CSM不仅适用于对话式AI，还可能推动教育、娱乐等领域语音交互体验的革新。业内人士认为，CSM或将重塑AI语音助手标准，带来更自然的人机对话。

CSM 语音合成模型 Transformer Sesame

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

全球首个自回归视频生成大模型 MAGI-1 重磅发布，Swin Transformer 团队引领视频创作新潮流

在视频生成领域，最近涌现出了一位强劲的新选手 ——MAGI-1。这款由马尔奖和清华特奖得主曹越领导的创业公司 Sand AI 推出的自回归视频生成大模型，正在重新定义视频创作的可能性。MAGI-1通过预测视频块的序列来生成视频，以其自然流畅的效果和多个可下载版本引发广泛关注。MAGI-1在生成视频时具有诸多优越性能。首先，它提供了无缝流畅的视频体验，能够生成连续的长视频场景，没有尴尬的剪辑或突兀的拼接，仿佛是电影一般。此外，MAGI-1还实现了秒级的时间轴精准控制，让用户能够

2025年4月22号 14:23

760

三星研究院推出新型自回归 Transformer，助力高分辨率图像生成

在图像生成领域，技术的进步不断推动着虚拟现实等应用的发展。最近，三星研究院提出了一种基于自回归建模的新方法，旨在提升图像生成的保真度和可扩展性。与传统的一次性生成整个场景的方法不同，该方法采用了逐步添加细节的策略，使图像的生成过程更符合人类的创作习惯。这一新方法的核心在于将图像生成分为 “基础” 与 “细节” 两个层次，首先生成一个平滑的基础图像，再通过迭代的方式逐步添加细节，最终形成一个连贯的高质量图像。研究团队强调，这种分层组合的策

2025年4月22号 9:29

3.6k

姚班学霸、OpenAI姚顺雨：AI发展已从模型创新到产品思维

随着人工智能（AI）技术的不断成熟，业内专家提出，AI 发展的重心正在发生显著转变。从早期的模型训练和算法创新，转向更加关注任务定义与评估优化。这一观点由 OpenAI 的研究员姚顺雨提出，他强调，在 AI 的下半场，产品思维将成为推动技术应用和商业化的关键。在 AI 的上半场，研究者们专注于构建强大的模型，例如 Transformer 和 GPT-3等，这些模型在各种基准任务中表现出色。此阶段的核心在于方法论，研究人员主要关注如何设计和优化算法，而任务的定义往往被视为次要。因此，尽

2025年4月17号 17:54

15.9k

AI视频生成技术TTT：可直出一分钟完整猫和老鼠动画无需编辑、拼接

近日，一项名为《One-Minute Video Generation with Test-Time Training》（一分钟视频生成与测试时训练）的全新研究论文正式发布，标志着人工智能视频生成技术迈入了一个崭新阶段。该研究通过在预训练Transformer模型中引入创新的测试时训练(TTT)层，成功实现了生成一分钟《猫和老鼠》(Tom and Jerry)动画视频的壮举。这一技术不仅在时间跨度上突破了传统AI视频生成的限制，还在画面连贯性和故事完整性上达到了令人惊叹的高度，为AI驱动的创意内容生产开辟了新的可能性。这项研究的亮点在于其生成

2025年4月9号 10:41

4.9k

EasyControl：让DiT模型拥有ControlNet般强大操控，支持吉卜力画风转换

在人工智能绘画领域，扩散模型（Diffusion Model）正经历从基于Unet架构向基于Transformer架构(DiT)的转变。然而，DiT生态系统在插件支持、效率以及多条件控制等方面仍面临挑战。近日，由Xiaojiu-z领衔的团队推出了名为EasyControl的创新框架，旨在为DiT模型提供高效且灵活的条件控制能力，犹如为DiT模型装上了强大的“ControlNet”。EasyControl的核心优势EasyControl并非简单的模型叠加，而是一套经过精心设计的统一条件DiT框架。其核心优势在于通过引入轻量级的条件注入LoRA模块（Condition Injection LoRA mod

2025年4月7号 13:49

14.8k

英伟达AI研究人员推出FFN融合技术:加速大型语言模型推理

人工智能芯片巨头英伟达的研究人员近日发布了一项名为“FFN融合”（FFN Fusion）的创新架构优化技术。该技术旨在通过解决Transformer架构中固有的串行计算瓶颈，显著提升大型语言模型（LLMs）的推理效率，为更广泛地部署高性能AI应用铺平道路.近年来，大型语言模型在自然语言处理、科学研究和对话代理等领域展现出强大的能力。然而，随着模型规模和复杂性的不断增加，其推理过程所需的计算资源也大幅增长，导致了效率瓶颈。Transformer架构是LLM的基础，其交替的注意力机制和前馈网络

2025年3月31号 13:48

2.3k

腾讯发布混元 - T1 正式版，推理能力大幅提升

近日，腾讯发布了混元大模型系列的正式版 —— 混元 - T1。这款新模型基于混元中等规模底座，经过大规模后训练，显著增强了推理能力，特别是在深度思考和复杂问题解决方面表现出色。自从今年2月混元 T1-Preview 上线以来，用户们便体验到了更快、更深刻的思考过程，而此次正式版的推出，则标志着该系列产品的进一步升级。混元 - T1的研发团队利用最新的 TurboS 基座，这是一种行业领先的超大规模 Hybrid-Transformer-Mamba MoE 模型。TurboS 在处理长文本推理时展现出独特优势，有效解决了上下

2025年3月24号 9:54

2.7k

摩尔线程重磅开源两大AI框架，国产GPU训练效率突破90%

深度计算领域再添利器!摩尔线程今日重磅宣布，正式开源MT-MegatronLM与MT-TransformerEngine两大AI框架，这一举措将为国产计算基础设施注入强劲动力。这两大框架通过深度融合FP8混合训练策略和高性能算子库，成功在国产全功能GPU上实现混合并行训练和推理，大幅提升了大模型训练的效率与稳定性。摩尔线程此次开源的MT-MegatronLM框架专为全功能GPU打造，支持dense模型、多模态模型及MoE（混合专家）模型的高效训练，满足了当前AI领域多样化的训练需求。而MT-TransformerEngine则主攻Transformer模型的训

2025年3月18号 10:46

3.2k

挑战传统：无归一化层的 Transformer 架构新突破

在深度学习领域，归一化层被视为现代神经网络中不可或缺的组件之一。最近，一项由 Meta FAIR 研究科学家刘壮主导的研究成果 ——“没有归一化层的 Transformer” 引发了广泛关注。这项研究不仅提出了一种名为动态 tanh（Dynamic Tanh，DyT）的新技术，还展示了在不使用传统归一化层的情况下，Transformer 架构依然可以实现高效的训练和推理。归一化层，尤其是层归一化（Layer Normalization，LN），在过去的十年中对优化深度学习模型起到了至关重要的作用。LN 层通过将输入激活进行缩放和压缩，从

2025年3月14号 16:06

2.3k

大模型长文推理迎来“核弹级”提速！清华APBB框架狂飙10倍，Flash Attention直接被秒

还在为大模型处理长文本“龟速”而抓狂?别急!清华大学祭出“王炸”技术——APB 序列并行推理框架，直接给大模型装上“涡轮增压”引擎!实测显示，这项黑科技在处理超长文本时，速度竟比肩 Flash Attention 快10倍!没错，你没听错，是10倍!要知道，随着 ChatGPT 等大模型的爆火，AI 们“阅读”能力也水涨船高，动辄处理十几万字的长文不在话下。然而，面对海量信息，传统大模型的“大脑”却有点卡壳—— Transformer 架构虽强，但其核心的注意力机制就像一个“超级扫描仪”，文本越长，扫描

2025年3月13号 9:50

2.6k

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图