Mini-Omni

リアルタイム音声入力とストリーミング音声出力をサポートする、オープンソースのマルチモーダル大規模言語モデルです。

一般製品生産性マルチモーダル音声認識

Mini-Omniは、リアルタイムの音声入力とストリーミング音声出力による対話機能を実現する、オープンソースのマルチモーダル大規模言語モデルです。追加のASRやTTSモデルを必要とせずに、リアルタイムの音声対音声対話機能を備えています。さらに、思考しながら音声出力ができ、テキストと音声の同時生成をサポートします。Mini-Omniは、『Audio-to-Text』と『Audio-to-Audio』のバッチ推論によって性能をさらに向上させています。

追加のASRやTTSモデルを必要としない、リアルタイムの音声対音声対話機能。
思考しながら話すことができ、テキストと音声の同時生成が可能。
ストリーミング音声出力機能をサポート。
性能向上のため、『Audio-to-Text』と『Audio-to-Audio』のバッチ推論を提供。
新しいconda環境の作成と必要なパッケージのインストールをサポート。
コマンドラインから対話型デモを迅速に起動可能。
事前設定された音声サンプルと質問を使用して、ローカルテストが可能。

Mini-Omniは、開発者、研究者、そして人工知能のマルチモーダルインタラクション技術に関心のあるユーザーに適しています。開発者にとって、音声インタラクション機能を備えたアプリケーションの構築とテストを行うための強力なツールとなります。

開発者はMini-Omniを使用して、リアルタイムの音声対話ができるチャットボットを作成できます。
研究者はMini-Omniを使用して、音声認識と音声合成技術の実験や研究を行うことができます。
教育機関はMini-Omniを使用して、リアルタイムの音声フィードバックを提供する言語学習アプリケーションを開発できます。

新しいconda環境を作成し、アクティブにする。
gitを使用してMini-Omniのコードリポジトリをローカルにクローンする。
必要なPythonパッケージをインストールする。
サーバーを起動し、streamlitまたはgradioデモを実行する。
事前設定された音声サンプルと質問を使用して、ローカルテストを行う。

ウェブサイトを開く

Mini-Omni 最新のトラフィック状況

月間総訪問数

474564576

直帰率

36.20%

平均ページ/訪問

6.1

平均訪問時間

00:06:34

Mini-Omni 訪問数の傾向

Mini-Omni 訪問地理的分布

Best AI Websites & Tools

Mini-Omni

Mini-Omni 最新のトラフィック状況

Mini-Omni 訪問数の傾向

Mini-Omni 訪問地理的分布

Mini-Omni トラフィックソース

Mini-Omni 代替品

Mini-Omni — リアルタイム音声入力とストリーミング音声出力をサポートする、オープンソースのマルチモーダル大規模言語モデルです。

音声対音声変換 — オープンソースの音声対音声変換モジュール

FunAudioLLM — 自然な対話による音声理解と生成を行う基礎モデル

Any GPT — マルチモーダル大規模言語モデル

IndexTTS — 産業レベルで制御可能な、効率的なゼロショットテキスト音声変換システム

Phi-4-multimodal-instruct — Phi-4-multimodal-instructは、Microsoftが開発した軽量のマルチモーダル基礎モデルで、テキスト、画像、音声入力をサポートします。

DeepSeek 日本語版 — DeepSeekは、論理推論、数学、プログラミングタスクに秀でた高度なAI言語モデルです。無料で利用できます。

FireRedASR-AED-L — オープンソースの産業レベル自動音声認識モデル。標準中国語、方言、英語に対応し、優れた性能を誇ります。

FireRedASR — オープンソースの工業レベル標準中国語自動音声認識モデルで、様々なアプリケーションシナリオに対応しています。

SmolVLM-500M-Instruct — SmolVLM-500Mは、軽量なマルチモーダルモデルであり、画像とテキストの入力を処理してテキスト出力を生成できます。

kokoro-onnx — KokoroとONNXランタイムに基づくテキスト読み上げ（TTS）プロジェクトです。

RealtimeSTT — 高度な音声活動検出、ウェイクワードアクティベーション、リアルタイム転写機能を備えた、堅牢で効率的な低遅延の音声テキスト変換ライブラリです。

Audiblez — 電子書籍をオーディオブックに変換するツールです。

Moondream AI — 様々なデバイスで動作するオープンソースのビジョン言語モデルです。

xiaozhi-esp32 — ESP32ベースのAIチャットボットプロジェクト。多言語対応の会話と声紋認証を実現します。

VITA-1.5 — VITA-1.5：リアルタイムの視覚と音声インタラクションを備えたGPT-4o級のマルチモーダル大規模言語モデル

AIGCPanel オープンソースAIデジタルヒューマンシステム — ワンストップAIデジタルヒューマンシステム。動画合成、音声合成、音声クローンに対応

Valley 2.0 — テキスト、画像、動画データを処理する能力を向上させた、マルチモーダル大規模言語モデルです。

Moonshine Web — リアルタイムブラウザ対応音声認識アプリケーション

InternVL 2.5 — オープンソースのマルチモーダル大規模言語モデルシリーズ

ComfyUI-MMAudio — MMAudioモデルを用いたオーディオ処理を行うComfyUIノード

ultravox-v0_4_1-llama-3_1-70b — 多様な音声に対応する大規模言語モデル

hertz-dev — オープンソースの全二重音声生成基礎モデル

MLX自動字幕生成ツール — Apple MLXフレームワークに基づいたビデオ字幕生成ツール

Transcribro — Androidプラットフォーム上で動作する、プライベートかつデバイスローカルの音声認識キーボードおよびテキストサービスです。

GLM-4-Voice — 日本語と英語の音声対話を行うエンドツーエンドモデル

Spirit LM — テキストと音声統合のマルチモーダル言語モデル

Reverb — オープンソースの音声認識と話者分離モデル推論コード

EMOVA — 感情豊かなマルチモーダル言語モデル

Llama 3.2 — オープンソースのAIモデル。微調整、蒸留、展開が可能です。