Sesame、CSMモデルを発表：リアルタイム感情カスタマイズAI音声合成が新たな高みに

AIbase基地

公開日AIニュース · 1 分で読めます · Mar 14, 2025

3月13日、Sesame社は最新のテキスト音声変換モデルCSMを発表し、業界の注目を集めています。公式発表によると、CSMはTransformerベースのエンドツーエンド多モーダル学習アーキテクチャを採用し、コンテキスト情報を理解して、自然で感情豊かな音声生成を実現しています。そのリアルな音声は驚くべきクオリティです。

このモデルはリアルタイム音声生成に対応し、テキストと音声の両方の入力を処理できます。ユーザーはパラメーターを調整することで、トーン、イントネーション、リズム、感情などを制御でき、高い柔軟性を発揮します。

CSMはAI音声技術における重要なブレークスルーと見なされています。その音声の自然度は非常に高く、「人工合成か真人か見分けがつかない」レベルです。ユーザーがCSMのほぼ無遅延の性能を示す動画を公開し、「今までで一番優れたモデル」と称賛する声もあります。以前、Sesame社は小型版のCSM-1Bをオープンソース化しており、複数回の対話で一貫性のある音声生成を可能にし、高い評価を得ていました。

現在、CSMは主に英語でトレーニングされており、優れた性能を発揮していますが、多言語対応はまだ限定的です。現時点では中国語には対応していませんが、今後の拡張が期待されています。

Sesame社は研究成果の一部をオープンソース化すると発表しており、コミュニティ開発者たちはGitHub上でその可能性について活発に議論しています。CSMは対話型AIへの応用だけでなく、教育やエンターテインメント分野における音声インタラクション体験の革新を推進する可能性も秘めています。業界関係者は、CSMがAI音声アシスタントの標準を塗り替え、より自然な人間と機械の対話を実現すると考えています。

CSM 音声合成モデル Transformer Sesame

この記事はAIbaseデイリーからのものです

【AIデイリー】へようこそ！ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。

—— AIbase デイリーグループによって作成

バイトダンス、効率的な事前学習長さスケーリング技術を発表長シーケンス訓練のボトルネックを突破

Apr 23, 2025

動画制作の常識を覆す！アリババのVACEモデル、テキスト・画像・動画入力を統合処理

アリババグループの科学者チームが、幅広い動画生成と編集タスクを統一的に処理することを目的とした汎用AIモデル、VACEを発表しました。VACEの中核は、強化された拡散Transformerアーキテクチャであり、その革新的な点は「ビデオ条件ユニット（VCU）」という新しい入力形式です。VCUは、テキストプロンプト、参照画像や動画シーケンス、空間マスクなど、多様なモダリティの入力を統一的な表現に凝縮し、専用のメカニズムによって異なる入力間の調整を行い、競合を回避します。概念の分離により、きめ細やかな制御を実現します。

Apr 23, 2025

世界初の自己回帰型ビデオ生成大規模言語モデルMAGI-1が発表 Swin Transformerチームがビデオ制作の新潮流をリード

ビデオ生成分野において、最近強力な新モデルが登場しました。それはMAGI-1です。マル賞と清華特等奨学金受賞者である曹越氏が率いるスタートアップ企業Sand AIが発表したこの自己回帰型ビデオ生成大規模言語モデルは、ビデオ制作の可能性を再定義しつつあります。MAGI-1はビデオブロックのシーケンスを予測することでビデオを生成し、その自然で滑らかな効果と複数のダウンロード可能なバージョンにより、広く注目を集めています。MAGI-1はビデオ生成において多くの優れた性能を備えています。まず、シームレスで滑らかなビデオ体験を提供し、生成されたビデオは…

Apr 22, 2025

サムスン研究所、高解像度画像生成を支援する新型自己回帰型Transformerを発表

Apr 22, 2025

姚班秀才、OpenAI姚順雨：AI開発はモデル革新からプロダクト思考へ

Apr 17, 2025

AI動画生成技術TTT：1分間のトムとジェリーアニメをワンカットで生成、編集や繋ぎ合わせ不要

近頃、『One-Minute Video Generation with Test-Time Training』（テスト時訓練による1分間の動画生成）という題名の新しい研究論文が発表され、人工知能による動画生成技術が新たな段階に突入したことを示しています。この研究では、事前学習済みのTransformerモデルに革新的なテスト時訓練(TTT)層を導入することで、『トムとジェリー』(Tom and Jerry)の1分間のアニメーションを生成することに成功しました。

Apr 9, 2025

690

EasyControl：DiTモデルにControlNet並みの強力な制御機能を提供、ジブリ風変換にも対応

人工知能による絵画の分野では、拡散モデル（Diffusion Model）がU-NetアーキテクチャベースからTransformerアーキテクチャ（DiT）ベースへと移行しつつあります。しかし、DiTエコシステムは、プラグインサポート、効率性、多条件制御などの点で課題に直面しています。最近、Xiaojiu-z氏率いるチームがEasyControlという革新的なフレームワークを発表しました。これは、DiTモデルに効率的で柔軟な条件制御能力を提供することを目的としており、まるでDiTモデルに強力なCを装備したようなものです。

Apr 7, 2025

NVIDIAのAI研究者、FFN融合技術を発表：大規模言語モデルの推論を高速化

Mar 31, 2025

140

テンセント、混元-T1正式版を発表推論能力が大幅に向上

テンセントは先日、混元大規模言語モデルシリーズの正式版である「混元-T1」を発表しました。この新しいモデルは、中規模の混元基盤モデルをベースに大規模な事後学習が行われ、推論能力が大幅に向上しています。特に、深い思考や複雑な問題解決において優れたパフォーマンスを発揮します。2月に混元T1-Previewが公開されて以来、ユーザーはより高速で深い思考プロセスを体験しており、今回の正式版のリリースは、このシリーズ製品の更なる進化を示しています。混元-T1の開発チームは最新のTurbo...

Mar 24, 2025

ムーアセラード、2つの主要なAIフレームワークを大々的にオープンソース化国産GPUのトレーニング効率が90％を突破

ムーアセラードが、MT-MegatronLMとMT-TransformerEngineという2つの強力なAIフレームワークをオープンソース化しました。これにより、国産GPUを用いたAIトレーニングの効率が90％以上にまで向上しました。

Mar 18, 2025

AIニュース

AIデイリー

AIタイムライン

Alハードウェアです

最新事例

画像コレクション

ビデオコレクション

オーディオコレクション

コンテンツコレクション

最新チュートリアル

AIプロダクトランキング

AIトラフィック成長ランキング

AIトラフィック減少ランキング

AI週間ランキング

アメリカ合衆国

中国

インド

ブラジル

画像生成

パーソナルアシスタント

キャラクター生成

ビデオ生成

AIプロジェクトランキング

AIプロジェクト成長ランキング

AI開発者ランキング

AI組織ランキング

Deepseek

TTS

LLM

ChatGPT

概要