SALMONN

SALMONN: Red neuronal abierta de lenguaje, audio y música

Producto ComúnProductividadVozAudio

SALMONN es un gran modelo de lenguaje (LLM) desarrollado por el Departamento de Ingeniería Electrónica de la Universidad Tsinghua y ByteDance. Admite entrada de voz, eventos de audio y música. A diferencia de los modelos que solo admiten entrada de voz o eventos de audio, SALMONN puede percibir y comprender diversas entradas de audio, lo que le otorga capacidades emergentes como el reconocimiento y la traducción de voz multilingüe, y la inferencia conjunta de audio y voz. Esto puede considerarse como dotar al LLM de "oído" y capacidad de audición cognitiva, convirtiendo a SALMONN en un paso hacia una inteligencia artificial general con capacidad auditiva.

Noticias de IA

IA Diario

Cronología de la IA

Al hardware

Últimos Casos

Colección de Imágenes

Colección de Videos

Colección de Audio

Colección de Contenido

Últimos Tutoriales

Ranking de Productos de IA

Ranking de Crecimiento de Tráfico de IA

Ranking de Descenso de Tráfico de IA

Ranking Semanal de IA

Estados Unidos

China

India

Brasil

Generación de Imágenes

Asistente Personal

Generación de Personajes

Generación de Videos

Ranking de Proyectos de IA

Ranking de Crecimiento de Proyectos de IA

Ranking de Desarrolladores de IA

Ranking de Organizaciones de IA

Deepseek

TTS

LLM

ChatGPT

Visión General

SALMONN

SALMONN Situación del tráfico más reciente

SALMONN Tendencia de visitas

SALMONN Distribución geográfica de las visitas

SALMONN Fuentes de tráfico

SALMONN Alternativas

SALMONN — SALMONN: Red neuronal abierta de lenguaje, audio y música

Speaking AI — IA de generación de voz con conversación natural

Orate — Orate es un conjunto de herramientas de IA centrado en el audio, que admite funciones de texto a voz y de voz a texto.

Maidio — Maidio es una aplicación inteligente que transforma el contenido RSS de noticias en podcasts conversacionales mediante IA.

Radio Maiyoo — Radio Maiyoo utiliza la inteligencia artificial para convertir las noticias en un formato de diálogo, creando una experiencia de radio personalizada.

Hailuo — Su asistente de IA inteligente definitivo.

MiniCPM-o — MiniCPM-o 2.6: Un MLLM de nivel GPT-4o que permite transmisión en vivo visual, de voz y multimodal en dispositivos móviles.

PodRedit — Plataforma para compartir podcasts y descubrir programas populares.

PodSnap.AI — AI que genera resúmenes de podcasts; no te pierdas nada interesante.

Outspeed — Plataforma de IA para audio y vídeo en tiempo real

Daily Bots — Plataforma en la nube de código abierto que permite la IA de voz y vídeo con una latencia ultrabaja.

Pipecat — Marco de trabajo de código abierto para construir IA de diálogo de voz y multimodal.

Journi — Lleva tu viaje a una plataforma global de audiencia.

Butter Reader — Convierte texto de blogs en cautivadores archivos de audio.

Ad Auris — Escucha artículos en cualquier momento y lugar

SpeechGPT — Modelo de lenguaje multimodal

Konch — Servicio de transcripción automática rápido y preciso

FreGrad — Codificador de audio difusivo ligero y rápido con percepción de frecuencia

Unified-IO 2 — Modelo generativo multimodal unificado

Jellypod — Convierte tu bandeja de entrada en un podcast diario personalizado.

Plataforma Merlin API — Integra LLM en aplicaciones de producción rápidamente

Huddles — Desde conversaciones informales hasta reuniones de colaboración profunda, Huddles ofrece una nueva forma ligera de conexión de audio o video, para conectarse en cualquier momento y lugar.

Tutur — Mejora tus habilidades lingüísticas con IA

Read — Read genera boletines informativos diarios de audio personalizados para el usuario.

Habla con GPT — Interactúa con ChatGPT mediante voz.

GlossAi — Reutilización completa del flujo de trabajo de vídeo y audio

narrador — David Attenborough narra tu vida

eMastered — Masterización de audio online

Jamit.app — Plataforma de entretenimiento de audio nativo

Voz Personalizada — Experiencia de voz personalizada a medida