Mini-Omni

Open-Source-Großes Sprachmodell mit multimodaler Fähigkeit, das Echtzeit-Sprachaufnahme und Streaming-Audioausgabe unterstützt.

Normales ProduktProduktivitätMultimodalSpracherkennung

Website öffnen

Mini-Omni ist ein Open-Source-Großes Sprachmodell mit multimodaler Fähigkeit, das Echtzeit-Sprachdialog mit Streaming-Audioausgabe ermöglicht. Es bietet Echtzeit-Sprach-zu-Sprach-Dialogfunktionen ohne zusätzliche ASR- oder TTS-Modelle. Darüber hinaus kann es während des Denkens Sprache ausgeben und gleichzeitig Text und Audio generieren. Mini-Omni verbessert seine Leistung durch Batch-Inferenz mit 'Audio-to-Text' und 'Audio-to-Audio'.

Echtzeit-Sprach-zu-Sprach-Dialogfunktion ohne zusätzliche ASR- oder TTS-Modelle.
„Denken und Sprechen“ gleichzeitig: gleichzeitige Text- und Audiogenerierung.
Streaming-Audioausgabe.
Batch-Inferenz mit 'Audio-to-Text' und 'Audio-to-Audio' zur Leistungssteigerung.
Unterstützung beim Erstellen neuer Conda-Umgebungen und der Installation der benötigten Pakete.
Schneller Start der interaktiven Demo über die Kommandozeile.
Unterstützung für lokale Tests mit vordefinierten Audiobeispielen und Fragen.

Mini-Omni eignet sich für Entwickler
Forscher und alle Benutzer
die sich für die multimodale Mensch-Computer-Interaktion im Bereich der künstlichen Intelligenz interessieren. Es bietet Entwicklern ein leistungsstarkes Werkzeug zum Erstellen und Testen von Anwendungen mit Sprachinteraktion.

Entwickler können Mini-Omni verwenden
um einen Chatbot zu erstellen
der Echtzeit-Sprachdialoge ermöglicht.
Forscher können Mini-Omni für Experimente und Forschung im Bereich Spracherkennung und Sprachsynthese einsetzen.
Bildungseinrichtungen können Mini-Omni zur Entwicklung von Sprachlern-Apps mit Echtzeit-Sprachfeedback verwenden.

Erstellen und aktivieren Sie eine neue Conda-Umgebung.
Klonen Sie das Mini-Omni-Repository mit Git lokal.
Installieren Sie die benötigten Python-Pakete.
Starten Sie den Server und führen Sie die Streamlit- oder Gradio-Demo aus.
Führen Sie lokale Tests mit vordefinierten Audiobeispielen und Fragen durch.

Website öffnen

Mini-Omni Neueste Verkehrssituation

Monatliche Gesamtbesuche

474564576

Absprungrate

36.20%

Durchschnittliche Seiten pro Besuch

6.1

Durchschnittliche Besuchsdauer

00:06:34

Mini-Omni Besuchstrend

Mini-Omni Geografische Verteilung der Besuche

Best AI Websites & Tools

Mini-Omni

Mini-Omni Neueste Verkehrssituation

Mini-Omni Besuchstrend

Mini-Omni Geografische Verteilung der Besuche

Mini-Omni Traffic-Quellen

Mini-Omni Alternativen

Mini-Omni — Open-Source-Großes Sprachmodell mit multimodaler Fähigkeit, das Echtzeit-Sprachaufnahme und Streaming-Audioausgabe unterstützt.

Sprach-zu-Sprach-Konvertierung — Open-Source-Modul für die Sprach-zu-Sprach-Konvertierung

FunAudioLLM — Grundlegendes Modell für die natürliche Sprachinteraktion bei Sprachverständnis und -erzeugung

AnyGPT — Multimodales großes Sprachmodell

IndexTTS — Industrielles, steuerbares und effizientes Zero-Shot Text-to-Speech-System

Phi-4-multimodal-instruct — Phi-4-multimodal-instruct ist ein leichtgewichtiges, multimodales Basismodell von Microsoft, das Text-, Bild- und Audioeingaben unterstützt.

DeepSeek Japanisch — DeepSeek ist ein fortschrittliches KI-Sprachmodell, das sich auf logisches Denken, Mathematik und Programmieraufgaben spezialisiert hat und kostenlos nutzbar ist.

FireRedASR-AED-L — Open-Source-Modell für industrielle automatische Spracherkennung, unterstützt Mandarin, Dialekte und Englisch, hervorragende Leistung.

FireRedASR — Ein quelloffenes, industrietaugliches Mandarin-Sprachmodell zur automatischen Spracherkennung (ASR), das verschiedene Anwendungsszenarien unterstützt.

Janus-Pro-1B — Janus-Pro-1B ist ein einheitliches, multimodales, autoregressives Framework für Verständnis und Generierung.

kokoro-onnx — Ein Text-zu-Sprache (TTS)-Projekt basierend auf Kokoro und der ONNX Runtime.

RealtimeSTT — Eine robuste, effiziente und latenzarme Bibliothek zur Sprach-zu-Text-Konvertierung mit fortschrittlicher Sprachaktivitätserkennung, Wake-Word-Aktivierung und Echtzeit-Transkription.

Audiblez — Ein Tool zur Umwandlung von E-Books in Hörbücher.

Moondream AI — Open-Source-visuelles Sprachmodell, lauffähig auf verschiedenen Geräten.

xiaozhi-esp32 — Ein KI-Chatbot-Projekt auf Basis von ESP32, das mehrsprachige Konversation und Spracherkennung ermöglicht.

VITA-1.5 — VITA-1.5: Ein multimodaler großes Sprachmodell der GPT-4o-Klasse für Echtzeit-Video- und Sprachinteraktion

OpenEMMA — Open-Source End-to-End autonomes Multimodal-Modell

Valley 2.0 — Multimodales großes Sprachmodell zur Verbesserung der Verarbeitung von Text-, Bild- und Videodaten.

Gemini Multimodal Live + WebRTC — Eine Single-File-Anwendung, die Gemini Multimodal Live und WebRTC-Technologie integriert.

Moonshine Web — Echtzeit-Spracherkennungs-Anwendung im Browser

InternVL 2.5 — Open-Source-Serie großer multimodaler Sprachmodelle

ultravox-v0_4_1-llama-3_1-70b — Multimodales Sprachgroßsprachmodell

hertz-dev — Open-Source Basismodell für Vollduplex-Audiogenerierung

Transcribro — Eine private, gerätebasierte Spracherkennungs-Tastatur und Textdienst-Anwendung für Android.

GLM-4-Voice — End-to-End Chinesisch-Englisch Sprachdialogmodell

Spirit LM — Multimodales Sprachmodell, das Text und Sprache integriert

NVLM 1.0 — Spitzenmodell für multimodaler, großer Sprachmodelle

Reverb — Open-Source-Code zur Inferenz von Sprach- und Sprechererkennungsmodellen

EMOVA — Ein emotionsreiches multimodaler Sprachmodell

Llama 3.2 — Open-Source-AI-Modell, feinabstimmbar, destillierbar, bereitstellbar.