Qwen2-Audio: Ein audio-multimodales Modell der Qianwen-Serie

Alibaba Cloud hat kürzlich ein großes Sprachmodell für Audiodaten namens Qwen-Audio veröffentlicht. Dieses Modell kann verschiedene Audiosignale verarbeiten, Audioanalysen durchführen und Sprachbefehle direkt beantworten, wodurch die Sprachinteraktion deutlich verbessert wird.

Produktzugang:https://top.aibase.com/tool/qwen2-audio

Qwen-Audio bietet zwei einzigartige Interaktionsmodi: Audio-Chat und Audio-Analyse. Benutzer können ohne Texteingabe mit Qwen-Audio sprechen und gleichzeitig Audio- und Textbefehle zur Analyse bereitstellen, was für ein komfortableres Erlebnis sorgt.

Qwen-Audio versteht den Inhalt von Audiodaten intelligent und reagiert entsprechend auf Sprachbefehle. Beispielsweise kann Qwen-Audio in Audiosegmenten mit Geräuschen, Gesprächen mit mehreren Sprechern und Sprachbefehlen den Befehl verstehen, das Audio erklären und darauf reagieren.

Darüber hinaus wurde die Leistung des Modells hinsichtlich Faktenrichtigkeit und Einhaltung der gewünschten Verhaltensweisen durch DPO optimiert. Laut AIR-Bench-Bewertung übertrifft Qwen-Audio in Tests zur Fokussierung auf audiozentrierte Befehlsverfolgung frühere SOTA-Modelle wie Gemini-1.5-pro. Qwen-Audio ist Open Source und soll den Fortschritt der multimodalen Sprachgemeinschaft fördern.

Es ist bekannt, dass die Qwen-Audio-Serie zwei Modelle umfassen wird: Qwen-Audio und Qwen-Audio-Chat, um Benutzern ein reichhaltigeres Audio-Interaktionserlebnis zu bieten.

Die Forscher werden das Qwen-Audio-Modell umfassend bewerten und seine Leistung in verschiedenen Aufgaben ohne task-spezifische Feinabstimmung untersuchen. Bei den Ergebnissen der englischen automatischen Spracherkennung (ASR) zeigt Qwen-Audio im Vergleich zu früheren Multi-Task-Learning-Modellen eine höhere Leistung.

Bezüglich der Chat-Fähigkeiten von Qwen-Audio wurde die Leistung auf der AIR-Bench-Chat-Benchmark (Yang et al., 2024) gemessen. Qwen-Audio zeigt die branchenführenden (SOTA) Befehlsverfolgungsfunktionen über Sprach-, Sound-, Musik- und gemischte Audio-Subsets hinweg. Im Vergleich zu Qwen-Audio zeigt es substantielle Verbesserungen und übertrifft deutlich andere LALM.

Highlights:
🌟 Alibaba Cloud veröffentlicht Qwen-Audio, ein innovatives, großes Sprachmodell für Audiodaten, das die Sprachinteraktion verbessert;
Qwen-Audio kann verschiedene Audiosignale verarbeiten, Audioanalysen durchführen oder Sprachbefehle direkt beantworten und erweitert so die Funktionen der Sprachinteraktion erheblich;
🌟 Durch einen dreistufigen Trainingsprozess werden die Modellarchitektur, die Trainingsmethode und die Leistungsfähigkeit von Qwen-Audio umfassend dargestellt, um Benutzern ein hochwertigeres Audio-Interaktionserlebnis zu bieten.

KI-Nachrichten und -Informationen

Qwen2-Audio: Ein audio-multimodales Modell der Qianwen-Serie – Sprachinteraktion ohne Text

AIbase