Qwen2-Audio: Modelo multimodal de audio de la serie Qianwen, interacción de voz sin necesidad de texto

Alibaba Cloud acaba de lanzar Qwen-Audio, un modelo de lenguaje de audio a gran escala que admite diversas señales de audio como entrada. Puede analizar audio o responder directamente a comandos de voz, mejorando significativamente la experiencia de interacción de voz.

Acceso al producto:https://top.aibase.com/tool/qwen2-audio

En este lanzamiento, Qwen-Audio ofrece dos modos de interacción únicos: chat de voz y análisis de audio. Los usuarios pueden interactuar por voz con Qwen-Audio sin necesidad de entrada de texto, y también pueden proporcionar audio y texto para análisis durante la interacción, ofreciendo una experiencia más conveniente.

Qwen-Audio puede comprender inteligentemente el contenido del audio y responder adecuadamente a los comandos de voz. Por ejemplo, en un segmento de audio que contiene simultáneamente sonido, conversaciones con múltiples altavoces y comandos de voz, Qwen-Audio puede comprender directamente el comando y proporcionar una explicación y respuesta al audio.

Además, se ha optimizado el rendimiento del modelo en cuanto a la veracidad y el cumplimiento del comportamiento esperado. Según las evaluaciones de AIR-Bench, Qwen-Audio supera a los modelos anteriores SOTA, como Gemini-1.5-pro, en las pruebas centradas en el seguimiento de instrucciones basadas en audio.

Qwen-Audio es de código abierto y tiene como objetivo promover el progreso de la comunidad de lenguajes multimodales.

Se entiende que la serie Qwen-Audio lanzará dos modelos: Qwen-Audio y Qwen-Audio-Chat, para ofrecer a los usuarios una experiencia de interacción de audio más rica.

Los investigadores evaluarán exhaustivamente el modelo Qwen-Audio, evaluando su rendimiento en diversas tareas sin necesidad de ningún ajuste fino específico para la tarea. En cuanto a los resultados del reconocimiento automático del habla en inglés (ASR), Qwen-Audio muestra un rendimiento superior en comparación con los modelos de aprendizaje multitarea anteriores.

En cuanto a la capacidad de chat de Qwen-Audio, los investigadores midieron su rendimiento en el benchmark de chat de AIR-Bench (Yang et al., 2024). Qwen-Audio mostró la función de seguimiento de instrucciones más avanzada (SOTA) en subconjuntos de voz, sonido musical y audio mixto. En comparación con Qwen-Audio, muestra mejoras sustanciales y supera significativamente a otros LALM.

Puntos clave:
🌟 Alibaba Cloud lanza Qwen-Audio, un modelo de lenguaje de audio a gran escala innovador que mejora la experiencia de interacción de voz;
🌟 Qwen-Audio admite diversas señales de audio como entrada para analizar audio o responder directamente a comandos de voz, expandiendo enormemente las funciones de interacción de voz;
🌟 A través de un proceso de entrenamiento de tres etapas, se muestran el método de entrenamiento de la estructura del modelo y el rendimiento de Qwen-Audio, ofreciendo a los usuarios una experiencia de interacción de audio de mayor calidad.

Noticias de IA

Qwen2-Audio: Modelo multimodal de audio de la serie Qianwen, interacción de voz sin necesidad de texto

AIbase