Am 27. März kündigte das Alibaba Cloud Tongyi Qianwen Qwen-Team die Einführung von Qwen2.5-Omni an, dem neuen, umfassenden multimodalen Flaggschiffmodell der Qwen-Modellfamilie. Dieses neue Modell wurde speziell für die umfassende multimodale Wahrnehmung entwickelt und kann verschiedene Eingaben wie Text, Bilder, Audio und Video nahtlos verarbeiten. Es generiert gleichzeitig Text- und natürliche Sprachsynthese-Ausgaben über eine Echtzeit-Streaming-Antwort.
Qwen2.5-Omni verwendet die innovative Thinker-Talker-Architektur, ein End-to-End-Multimodalmodell, das das crossmodale Verständnis von Text, Bildern, Audio und Video unterstützt und Text- und natürliche Sprachausgaben im Streaming-Modus generiert. Das Thinker-Modul fungiert dabei wie ein Gehirn und verarbeitet multimodale Eingaben, um semantische Repräsentationen auf hoher Ebene und entsprechende Textinhalte zu generieren. Das Talker-Modul hingegen ähnelt einem Sprechapparat und empfängt die vom Thinker in Echtzeit ausgegebenen semantischen Repräsentationen und Texte, um nahtlos diskrete Spracheinheiten zu synthetisieren. Darüber hinaus stellt das Modell eine neue Positionscodierungstechnik namens TMRoPE (Time-aligned Multimodal RoPE) vor, die durch zeitliche Ausrichtung eine präzise Synchronisierung von Video- und Audioeingaben ermöglicht.
Das Modell zeichnet sich durch seine hervorragende Leistung bei der Echtzeit-Audio-Video-Interaktion aus. Es unterstützt die blockweise Eingabe und sofortige Ausgabe und ermöglicht eine vollständig interaktive Echtzeitkommunikation. In Bezug auf die Natürlichkeit und Stabilität der Sprachgenerierung übertrifft Qwen2.5-Omni viele bestehende Streaming- und Nicht-Streaming-Alternativen. In Bezug auf die umfassende modale Leistung zeigt Qwen2.5-Omni bei Benchmarks mit gleich großen unimodalen Modellen eine überragende Leistung. Seine Audiofähigkeiten übertreffen die von Qwen2-Audio ähnlicher Größe und erreichen ein ähnliches Niveau wie Qwen2.5-VL-7B. Darüber hinaus bietet Qwen2.5-Omni eine vergleichbare Leistung bei der End-to-End-Sprachbefehlserkennung wie bei der Textverarbeitung und zeigt hervorragende Ergebnisse bei Benchmarks wie MMLU (General Knowledge Understanding) und GSM8K (Mathematical Reasoning).
Qwen2.5-Omni übertrifft in verschiedenen Modalitäten wie Bild, Audio und Audio-Video Modelle ähnlicher Größe und Closed-Source-Modelle wie Qwen2.5-VL-7B, Qwen2-Audio und Gemini-1.5-pro. Im Multimodalen Task OmniBench erreicht Qwen2.5-Omni eine State-of-the-Art-Leistung. Bei unimodalen Aufgaben zeigt Qwen2.5-Omni in verschiedenen Bereichen hervorragende Ergebnisse, darunter Spracherkennung (Common Voice), Übersetzung (CoVoST2), Audioverständnis (MMAU), Bildschlussfolgerung (MMMU, MMStar), Videoverständnis (MVBench) und Sprachgenerierung (Seed-tts-eval und subjektive natürliche Hörerfahrung).
Derzeit ist Qwen2.5-Omni auf Hugging Face, ModelScope, DashScope und GitHub Open Source verfügbar. Benutzer können die interaktiven Funktionen über eine Demo erleben oder über Qwen Chat direkt Sprach- oder Videochats starten, um die leistungsstarke Leistung des neuen Qwen2.5-Omni-Modells umfassend zu erleben.
Qwen Chat:https://chat.qwenlm.ai
Hugging Face:https://huggingface.co/Qwen/Qwen2.5-Omni-7B
ModelScope:https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B
DashScope:https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni
Demo-Erfahrung:https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo