Mini-Omni

Modelo de lenguaje grande multi-modal de código abierto, compatible con entrada de voz en tiempo real y salida de audio en streaming.

Producto ComúnProductividadMultimodalReconocimiento de voz

Abrir sitio web

Mini-Omni es un modelo de lenguaje grande multi-modal de código abierto que permite la capacidad de conversación con entrada de voz en tiempo real y salida de audio en streaming. Ofrece una función de conversación de voz a voz en tiempo real, sin necesidad de modelos ASR o TTS adicionales. Además, puede generar audio mientras piensa, admitiendo la generación simultánea de texto y audio. Mini-Omni mejora aún más su rendimiento mediante inferencia por lotes 'Audio-a-Texto' y 'Audio-a-Audio'.

Función de conversación de voz a voz en tiempo real
sin necesidad de modelos ASR o TTS adicionales.
Habla mientras piensa
capaz de generar texto y audio simultáneamente.
Admite la capacidad de salida de audio en streaming.
Proporciona inferencia por lotes 'Audio-a-Texto' y 'Audio-a-Audio' para mejorar el rendimiento.
Admite la creación de un nuevo entorno conda e instalación de los paquetes necesarios.
Inicia rápidamente una demostración interactiva a través de la línea de comandos.
Admite pruebas locales
ejecutando muestras de audio y preguntas preestablecidas.

Mini-Omni es adecuado para desarrolladores
investigadores y usuarios interesados en la tecnología de interacción multi-modal de inteligencia artificial. Ofrece a los desarrolladores una herramienta potente para construir y probar aplicaciones con capacidad de interacción por voz.

Los desarrolladores pueden utilizar Mini-Omni para crear un chatbot capaz de mantener conversaciones de voz en tiempo real.
Los investigadores pueden utilizar Mini-Omni para experimentar e investigar en tecnologías de reconocimiento y síntesis de voz.
Las instituciones educativas pueden utilizar Mini-Omni para desarrollar aplicaciones de aprendizaje de idiomas que proporcionen retroalimentación de voz en tiempo real.

Cree un nuevo entorno conda y actívelo.
Clone el repositorio de código de Mini-Omni a su equipo local mediante git.
Instale los paquetes Python necesarios.
Inicie el servidor y ejecute la demostración de streamlit o gradio.
Realice pruebas locales

Abrir sitio web

Mini-Omni Situación del tráfico más reciente

Total de visitas mensuales

474564576

Tasa de rebote

36.20%

Páginas promedio por visita

6.1

Duración promedio de la visita

00:06:34

Mini-Omni Tendencia de visitas

Mini-Omni Distribución geográfica de las visitas

Best AI Websites & Tools

Mini-Omni

Mini-Omni Situación del tráfico más reciente

Mini-Omni Tendencia de visitas

Mini-Omni Distribución geográfica de las visitas

Mini-Omni Fuentes de tráfico

Mini-Omni Alternativas

Mini-Omni — Modelo de lenguaje grande multi-modal de código abierto, compatible con entrada de voz en tiempo real y salida de audio en streaming.

conversor-voz-a-voz — Módulo de conversión de voz a voz de código abierto

FunAudioLLM — Modelo base para la comprensión y generación de voz con interacción natural

AnyGPT — Modelo de lenguaje grande multimodal

Migician — Migician es un modelo de lenguaje multimodal de gran tamaño centrado en la localización de múltiples imágenes, capaz de realizar una localización precisa de múltiples imágenes de forma libre.

IndexTTS — Sistema de texto a voz (TTS) de muestra cero, eficiente y controlable de grado industrial

DeepSeek Japonés — DeepSeek es un modelo de lenguaje IA avanzado, especializado en razonamiento lógico, matemáticas y tareas de programación, disponible de forma gratuita.

FireRedASR-AED-L — Modelo de reconocimiento automático del habla (ASR) industrial de código abierto, compatible con mandarín, dialectos chinos e inglés, con un rendimiento excepcional.

FireRedASR — Modelo de Reconocimiento Automático del Habla (RAH) en mandarín estándar de nivel industrial de código abierto, compatible con múltiples escenarios de aplicación.

Janus-Pro-1B — Janus-Pro-1B es un marco autorregresivo unificado de comprensión y generación multimodal.

SmolVLM-500M-Instruct — SmolVLM-500M es un modelo multimodal ligero que puede procesar entradas de imagen y texto y generar salidas de texto.

kokoro-onnx — Proyecto de texto a voz (TTS) basado en el motor de ejecución Kokoro y ONNX.

RealtimeSTT — Una biblioteca robusta, eficiente y de baja latencia para la conversión de voz a texto, con detección avanzada de actividad de voz, activación por palabra clave y transcripción instantánea.

Audiblez — Herramienta para convertir libros electrónicos en audiolibros.

Moondream AI — Modelo de lenguaje visual de código abierto que se ejecuta en varios dispositivos.

xiaozhi-esp32 — Proyecto de chatbot de IA basado en ESP32, capaz de realizar conversaciones multilingües y reconocimiento de voz.

VITA-1.5 — VITA-1.5: Modelo de lenguaje multimodal de gran tamaño de nivel GPT-4o con interacción visual y de voz en tiempo real

OpenEMMA — Modelo multimodal de conducción autónoma de extremo a extremo de código abierto

Sistema de Avatares Digitales con IA de Código Abierto AIGCPanel — Sistema integral de avatares digitales con IA que admite la síntesis de vídeo, la síntesis de voz y la clonación de voz.

Valley 2.0 — Modelo de lenguaje grande multimodal que mejora el procesamiento de datos de texto, imágenes y vídeo.

Gemini Multimodal Live + WebRTC — Aplicación monofichero que integra la transmisión multi-modal de Gemini y la tecnología WebRTC.

Moonshine Web — Aplicación de reconocimiento de voz en tiempo real para navegadores

InternVL 2.5 — Serie de modelos lingüísticos grandes multimodales de código abierto

ultravox-v0_4_1-llama-3_1-70b — Modelo de lenguaje grande multimodal de voz

Transcribro — Teclado y servicio de transcripción de voz a texto privado y local para Android.

GLM-4-Voice — Modelo de diálogo de voz en inglés y chino de extremo a extremo

Modelo Lingüístico Spirit LM — Modelo de lenguaje multimodal que integra texto y voz

NVLM 1.0 — Modelo de lenguaje grande multimodal de vanguardia

Reverberación — Código de inferencia de modelos de reconocimiento de voz y separación de hablantes de código abierto.

EMOVA — Modelo de lenguaje multimodal con capacidad emocional