バイトダンス、Hugging FaceでMegaTTS3を発表：軽量化音声合成の新突破

AIbase基地

公開日AIニュース · 1 分で読めます · Apr 3, 2025

北京——バイトダンス（ByteDance）は先日、人工知能オープンソースコミュニティHugging Face上で最新のテキスト音声変換（TTS）モデルMegaTTS3を正式に発表しました。軽量設計と多言語サポートにおける画期的な性能により、世界中のAI研究者や開発者の注目を集めています。技術コミュニティからのフィードバックと公式情報によると、MegaTTS3は音声合成分野における重要な進歩と評価されています。

MegaTTS3の主要な特長

MegaTTS3は、バイトダンスと浙江大学が共同開発したオープンソースの音声合成ツールです。主幹モデルのパラメータ数はわずか0.45億個で、従来の大規模TTSモデルと比べて非常に軽量です。この設計により、計算資源の必要性が低減され、モバイル機器やエッジコンピューティング環境などのリソースが限られたデバイスへの展開にも適しています。

このモデルは、中国語と英語の音声生成に対応しており、中国語と英語の混合朗読機能も備えています。そのため、バイリンガルのテキストを自然で滑らかに処理できます。さらに、アクセントの強さを制御する機能も導入されており、パラメータを調整することで、異なるアクセントの強さを持つ音声を作成できます。これは、パーソナライズされた音声アプリケーションの可能性を広げます。技術専門家はコメントで「アクセントの強さを制御できる点が非常に素晴らしい」と指摘しています。

オープンソースコミュニティの熱烈な反響

MegaTTS3のコードと事前学習済みモデルは、GitHubとHugging Faceプラットフォームで無料で公開されており、ユーザーは直接ダウンロードして研究や開発に使用できます。Hugging Faceのプロジェクトページによると、MegaTTS3の目標は、オープンソースとオープンサイエンスを通じて人工知能の進歩と普及を促進することです。この取り組みは、バイトダンスのAI分野におけるオープンソースの伝統を継承しており、以前発表されたAnimateDiff-LightningやHyper-SDなどのモデルもコミュニティで高く評価されています。

技術コミュニティでは、開発者からMegaTTS3の軽量性と実用性に対する高い評価が寄せられています。ベテランエンジニアはコメントで「0.45億パラメータでこれだけの効果を実現できるのは、小規模チームや個人開発者にとって最適です」と述べています。多くの技術者は、バイリンガルのオーディオブックを作成するための教育支援ツールへの統合を計画しています。

技術的な詳細と将来展望

MegaTTS3の高効率性は、革新的なモデルアーキテクチャによるものです。具体的な詳細はまだ完全に公開されていませんが、公式ドキュメントでは、高品質の音声を生成する一方で、音声クローン機能もサポートしていることが記載されています。数秒間の音声サンプルだけで特定の音色を模倣できます。将来的には、バイトダンスはMegaTTS3に発音と時間制御機能を追加し、柔軟性と適用範囲をさらに向上させる計画です。

同時に、このモデルのハードウェア要件も比較的緩やかです。GPUを使用すると生成速度を大幅に向上できますが、公式ではCPU環境でも動作すると述べており、これは使用のハードルを間違いなく下げています。ただし、一部のユーザーは技術フォーラムで、インストール中にネットワークの問題や依存ライブラリのバージョン不一致により問題が発生する可能性があるとフィードバックしており、開発者はGitHubのissueページを参照して解決策を探すことを推奨しています。

適用範囲と業界への影響

MegaTTS3の発表は、多くの分野に新たな可能性をもたらします。学術研究では、音声合成技術の限界をテストするために使用できます。コンテンツ作成では、ビデオのナレーションやポッドキャストに低コストで高品質のナレーションを生成できます。教育分野では、バイリンガルサポートと音声クローン機能により、よりインタラクティブな学習ツールの開発を支援できます。さらに、開発者はこれをスマートデバイスに組み込み、中国語と英語の音声インタラクションを実現できます。

業界関係者は、MegaTTS3のオープンソースの性質が、中小企業や個人開発者の音声技術におけるイノベーションを加速させると考えています。バイトダンスがHugging Faceの使命宣言で述べているように、「私たちはオープンソースとオープンサイエンスを通じて人工知能の民主化を推進することに尽力しています」。この軽量で高性能なTTSモデルは、このビジョンの新たな表現と言えるでしょう。

結論

MegaTTS3がHugging Faceで発表されたことで、バイトダンスは再びAI技術開発とオープンソース共有におけるリーダーシップを証明しました。技術コミュニティの活発な議論から開発者の実際のアプリケーションまで、このモデルは音声合成分野に新たな活力を注入しています。将来的には、コミュニティの参加と機能の充実により、MegaTTS3はTTS技術発展の重要なマイルストーンになることが期待されます。

MegaTTS3を試したい開発者は、Hugging Faceのプロジェクトページ（リンク：https://huggingface.co/ByteDance/MegaTTS3）またはGitHubリポジトリにアクセスして、コードとモデルファイルを取得できます。この新しいツールの登場は、私たちの音声インタラクション方法に静かな変革をもたらすかもしれません。

バイトダンスがMulti-SWE-benchを発表、多言語コードの自動修正に新基準を確立

プログラム開発の世界において、バグ修正は常に悩みの種です。この度、バイトダンスのDoubao大規模言語モデルチームは朗報をもたらしました。同チームは、初の多言語ソフトウェアエンジニアリング（SWE）データセットであるMulti-SWE-benchを正式に発表しました。この新しいデータセットは、大規模言語モデルによるコードバグの自動修正能力を評価・向上させることを目的としています。Multi-SWE-benchは従来の単一言語データセットと比較して、適用範囲を大幅に拡大しています。このデータセットはPythonだけでなく、

バイトダンス、DreamActor-M1を発表：Runway Act機能を実現、アニメーション生成の新境地へ挑戦

先日、バイトダンス（ByteDance）は最新のAIプロジェクトであるDreamActor-M1を発表しました。これは動画生成技術に革新をもたらす最先端の成果です。このモデルは、静止画1枚と参考動作動画を組み合わせることで、写真中の人物を動画シーンにシームレスに置き換え、表情豊かで自然な動き、高画質の動画を生成できます。この技術の発表は、バイトダンスの生成AI分野における新たな飛躍を示すだけでなく、既存のアニメーション生成ツール（Runwayなど）への挑戦とも見なされています。

バイトダンス、DreamActor-M1プロジェクトを発表 Runway Act-Oneに対抗するAIキャラクター演技技術

バイトダンスは最近、新しいAIプロジェクトであるDreamActor-M1を発表しました。このプロジェクトは、Runway Act-Oneと同様の機能を実現することを目指しており、高度な生成AI技術を用いて、動画内のキャラクターの演技を仮想アニメーションに変換し、より高い精度と表現力を実現します。このニュースは、業界やネットユーザーの間で大きな注目を集め、バイトダンスによるAI動画生成分野における新たな一歩として認識されています。技術的ブレークスルー：Runway Act-Oneを超える野望公開情報によると、Drea

バイトダンスの画像生成フレームワークInfiniteYou：顔の特徴を維持し、シーンは自由に切り替え可能

バイトダンスがひっそりとリリースした画像生成ツール「InfiniteYou」（InfU）。簡単に言うと、テキストから画像を生成するモデルで、入力されたテキストの説明に基づいて、ユーザー個人の特徴を備えた高品質な画像を生成できる点が優れています。単なる顔交換アプリとは異なり、シーンやコンテンツを柔軟に変更しながら、ユーザーの特徴を正確に維持することに重点を置いています。宇宙服を着て宇宙を散歩したり、時代劇の衣装を着たりする自分の画像を簡単に生成できることを想像してみてください。

Orpheus TTS：人間らしい感情表現を備えた次世代TTSモデル

3月19日、Orpheus TTSというオープンソースのテキスト読み上げ（TTS）モデルが正式に発表されました。このモデルは、人間に近い感情表現、自然で滑らかな音声、超低遅延のリアルタイム出力ストリームといった特徴により、瞬く間に注目を集めています。Orpheus TTSはリアルタイムでの会話シーンにおいて優れたパフォーマンスを発揮し、スマート音声インタラクションに新たなブレークスルーをもたらす可能性を秘めています。Orpheus TTSは低遅延と高い感情表現を重視しており、主な特徴は以下の通りです： - **超低遅延**:デフォルトの遅延は約2…

バイトダンスDoubao大規模モデルチーム、全員会議を開催 AIの新境地を探求

人工知能分野の急速な発展を背景に、バイトダンスのDoubao大規模モデルチーム（Seed）は先日、全員会議を開催しました。これは、チームの今後の発展方向における重要な決定を示すものです。朱文佳氏と新任のAI基礎研究責任者である呉永輝氏によって共同で主宰されたこの会議は、両リーダーが初めて同席したことで業界の注目を集めました。会議では、朱文佳氏と呉永輝氏は、Seedチームの最優先目標は「知能の上限を探求すること」であると明確に述べ、これがチームの今後の活動の核となる方向性を示しました。彼らは、探求を...