Make-An-Audio 2

Tecnología de generación de audio a partir de texto basada en modelos de difusión.

Producto ComúnOtrosTexto a audioModelos de difusión

Make-An-Audio 2 es una tecnología de generación de audio a partir de texto basada en modelos de difusión, desarrollada conjuntamente por investigadores de la Universidad de Zhejiang, ByteDance y la Universidad China de Hong Kong. Esta tecnología utiliza modelos lingüísticos grandes preentrenados (LLM) para analizar el texto, optimizando la alineación semántica y la coherencia temporal, lo que mejora la calidad del audio generado. También incorpora un desruidor de difusión basado en un Transformer feed-forward para mejorar el rendimiento en la generación de audio de longitud variable y fortalecer la extracción de información temporal. Además, mediante el uso de LLM para convertir una gran cantidad de datos de etiquetas de audio en conjuntos de datos de texto de audio, se aborda el problema de la escasez de datos temporales.

Noticias de IA

IA Diario

Cronología de la IA

Al hardware

Últimos Casos

Colección de Imágenes

Colección de Videos

Colección de Audio

Colección de Contenido

Últimos Tutoriales

Ranking de Productos de IA

Ranking de Crecimiento de Tráfico de IA

Ranking de Descenso de Tráfico de IA

Ranking Semanal de IA

Estados Unidos

China

India

Brasil

Generación de Imágenes

Asistente Personal

Generación de Personajes

Generación de Videos

Ranking de Proyectos de IA

Ranking de Crecimiento de Proyectos de IA

Ranking de Desarrolladores de IA

Ranking de Organizaciones de IA

Deepseek

TTS

LLM

ChatGPT

Visión General

Make-An-Audio 2

Make-An-Audio 2 Situación del tráfico más reciente

Make-An-Audio 2 Tendencia de visitas

Make-An-Audio 2 Distribución geográfica de las visitas

Make-An-Audio 2 Fuentes de tráfico

Make-An-Audio 2 Alternativas

Make-An-Audio 2 — Tecnología de generación de audio a partir de texto basada en modelos de difusión.

InfiniteYou — Lograr una generación de imágenes flexible y de alta fidelidad, manteniendo al mismo tiempo las características de identidad.

MoBA — MoBA es un mecanismo de atención de bloques mixtos para contextos de texto largo, diseñado para mejorar la eficiencia de los modelos lingüísticos grandes.

Acompáñate del Flujo — Un método eficiente para controlar los patrones de movimiento de modelos de difusión de video, que admite la personalización y migración de patrones de movimiento.

TokenVerse — TokenVerse es un método de personalización multiconceptual basado en un modelo de difusión preentrenado de texto a imagen.

X-Dyna — X-Dyna es una técnica de generación de animación de imágenes humanas de muestra cero basada en modelos de difusión.

TangoFlux — Modelo de generación de audio a partir de texto de alta eficiencia

InvSR — Modelo de superresolución de imágenes de múltiples pasos basado en la inversión de difusión

Sketch2Sound — Modelo que genera audio controlable mediante señales de cambio temporal y la imitación de sonidos.

Color-diffusion — Utiliza modelos de difusión para colorear imágenes en blanco y negro

AnchorCrafter — Sistema de generación de vídeo 2D basado en modelos de difusión, que permite la creación de animaciones con interacción humano-objeto.

text-to-pose — Modelo que genera poses a partir de texto y, posteriormente, imágenes.

TryOffDiff — Tecnología de prueba virtual de reconstrucción de prendas de alta fidelidad basada en modelos de difusión

Autodestilación por Difusión — Una técnica de autodestilación por difusión para la generación de imágenes personalizada con cero ejemplos.

WorkflowLLM — Marco impulsado por datos que mejora la capacidad de orquestación de flujos de trabajo de los modelos lingüísticos grandes.

Agora — Protocolo de comunicación multiplataforma que permite una comunicación eficiente entre diferentes modelos lingüísticos grandes (LLM).

PromptFix — Marco para la reparación y edición de fotos según instrucciones humanas.

趣丸千音 — Solución de generación de voz realista y precisa.

awesome-LLM-resourses — Recopilación mundial de recursos de modelos lingüísticos grandes

Diffusers Image Outpaint — Extensión de imagen mediante modelos de difusión

EzAudio — Modelo de texto a audio de alta calidad y generación eficiente.

Herramientas de LLM de Código Abierto — Conjunto de herramientas de modelos lingüísticos grandes (LLM) de código abierto

OmniGen — Marco de generación de imágenes unificado que simplifica la generación de imágenes multitarea.

Shire — Lenguaje de agente de programación IA que permite la comunicación entre modelos lingüísticos grandes (LLM) y entornos de desarrollo integrados (IDE) para automatizar la programación.

Deslizadores de Concepto — Adaptadores de bajo rango para un control preciso de los conceptos en modelos de difusión.

LongCite — Permite que los modelos lingüísticos grandes generen citas de grano fino en preguntas y respuestas de textos largos.

Follow-Your-Canvas — Tecnología de generación y extensión de video de alta resolución

Bark — Modelo de generación de audio a partir de texto multilingüe de alta fidelidad

ml-mdm — Entrenamiento eficiente de modelos de difusión de texto a imagen de alta calidad

DiT-MoE — Modelo de transformador de difusión con parámetros a gran escala