TangoFlux

高効率なテキスト音声変換モデル

一般製品音楽テキスト音声変換音声生成

TangoFluxは、5億1500万パラメータを持つ高効率なテキスト音声変換（TTA）モデルです。単一のA40 GPU上で、最長30秒の44.1kHzオーディオをわずか3.7秒で生成できます。CLAP-Ranked Preference Optimization (CRPO)フレームワークを提案することで、TTAモデルの整列における課題を解決し、反復的な生成と選好データの最適化を通じてTTAの整列を強化します。TangoFluxは、客観的および主観的ベンチマークテストにおいて最先端の性能を達成しており、すべてのコードとモデルはオープンソースとして公開され、TTA生成の更なる研究を支援します。

Best AI Websites & Tools

TangoFlux

TangoFlux 最新のトラフィック状況

TangoFlux 訪問数の傾向

TangoFlux 訪問地理的分布

TangoFlux トラフィックソース

TangoFlux 代替品

TangoFlux — 高効率なテキスト音声変換モデル

Firefox翻訳モデル — Firefoxブラウザの翻訳機能向けに最適化された、CPUアクセラレーション対応のニューラル機械翻訳モデルです。

The Ultra-Scale Playbook — 超大規模システムの設計と最適化に特化したツールで、効率的なソリューションを提供します。

Kokoro TTS — StyleTTS 2アーキテクチャを基盤とした、8200万パラメーターを備える高度なAIテキスト音声変換モデルです。高品質で自然な音声合成を提供します。

Bakery — オープンソースAIモデルの微調整と収益化を支援するプラットフォーム。AIスタートアップ企業、機械学習エンジニア、研究者の方々を支援します。

vectrix-graphs — 多様なモデルの埋め込みを扱うグラフライブラリで、様々なモデルとデータタイプに対応した可視化をサポートします。

VidTok — マイクロソフトがオープンソースで公開した、先進的なビデオ分割器群

Valley 2.0 — テキスト、画像、動画データを処理する能力を向上させた、マルチモーダル大規模言語モデルです。

如意-Mini-7B — オープンソースの画像から動画への生成モデル

Q-RWKV-6 32B Instruct プレビュー — 複数の英語ベンチマークテストで最高記録を更新した、最も強力なRWKVモデルの変種です。

InternVL 2.5 — オープンソースのマルチモーダル大規模言語モデルシリーズ

Agentless — エージェントレスでソフトウェア開発上の問題を自動解決する手法

OLMo-2-1124-7B-SFT — 高性能英語テキスト生成モデル

混元视频 (HunyuanVideo) — テンセントがオープンソース化した大規模ビデオ生成モデルのトレーニングフレームワーク

Llama-3.1-Tulu-3-8B-DPO — 多様なタスクに対応可能な、高度なテキスト生成モデルです。

Neural Magic — AIモデルのデプロイと推論最適化のエキスパート

OuteTTS — 実験的なテキスト音声変換モデル

NotebookLlama — オープンソースのPDFからPodcastへのワークフロー構築ツール

genmoai — オープンソースの動画生成モデル

sd3.5 — 高品質な画像生成のための軽量推理モデル

LibreFLUX — 蒸留処理を施していないオープンソースのFLUXモデル

Zamba2-7B — 高性能小型言語モデル

SLM_Survey — 小型言語モデル調査、計測、および洞察

MLE-bench — 機械学習エンジニアリング能力を持つAIエージェントの評価ベンチマーク

Llama 3.2 — オープンソースのAIモデル。微調整、蒸留、展開が可能です。

PDF2Audio — PDFファイルを音声ポッドキャスト、講義、要約などに変換します。

EzAudio — 高品質なテキスト音声変換モデルを効率的に生成

Reflection Llama-3.1 70B — 世界最先端の大規模言語モデル（LLM）

OLMoE-1B-7B — 高効率・オープンソースの大規模言語モデル

RWKV v6 Finch 14B — RWKV v6 Finch 14Bは、長文処理に優れたオープンソースの大規模言語モデルです。