Kürzlich haben Forscher des Tencent Youtu Labors und anderer Institutionen das erste Open-Source-Multimodale große Sprachmodell VITA vorgestellt. Es kann gleichzeitig Videos, Bilder, Texte und Audio verarbeiten und bietet zudem eine erstklassige Interaktionserfahrung.

Das VITA-Modell wurde entwickelt, um die Schwächen großer Sprachmodelle bei der Verarbeitung chinesischer Dialekte zu beheben. Es basiert auf dem leistungsstarken Mixtral8×7B-Modell, erweitert den chinesischen Wortschatz und wurde mit zweisprachigen Anweisungen feinabgestimmt. VITA beherrscht daher nicht nur Englisch, sondern auch fließend Chinesisch.

image.png

Hauptmerkmale:

Multimodales Verständnis: VITA kann Videos, Bilder, Texte und Audio verarbeiten – eine in Open-Source-Modellen bisher einzigartige Fähigkeit.

Natürliche Interaktion: Es reagiert jederzeit auf Ihre Anfragen, ohne dass Sie jedes Mal „Hey, VITA“ sagen müssen. Sogar während eines Gesprächs mit anderen bleibt es höflich und unterbricht nicht unnötig.

Open-Source-Pionier: VITA ist ein wichtiger Schritt der Open-Source-Community im Bereich des multimodalen Verständnisses und der Interaktion und legt den Grundstein für zukünftige Forschung.

image.png

Die Magie von VITA liegt in seiner doppelten Modellbereitstellung. Ein Modell generiert Antworten auf Benutzeranfragen, während ein anderes Modell kontinuierlich die Umgebungseingaben verfolgt, um sicherzustellen, dass jede Interaktion präzise und zeitnah erfolgt.

VITA kann nicht nur chatten, sondern auch als Gesprächspartner beim Sport dienen oder Reisetipps geben. Es kann auch Fragen zu von Ihnen bereitgestellten Bildern oder Videos beantworten und zeigt so seine hohe Praktikabilität.

Obwohl VITA bereits enormes Potenzial gezeigt hat, befindet es sich in Bereichen wie der emotionalen Sprachsynthese und der multimodalen Unterstützung noch in der Weiterentwicklung. Die Forscher planen, dass die nächste VITA-Generation hochwertige Audiodaten aus Video- und Texteingaben generieren kann und sogar die gleichzeitige Erzeugung hochwertiger Audio- und Videodaten erforscht.

Die Open-Source-Veröffentlichung des VITA-Modells ist nicht nur ein technischer Erfolg, sondern auch eine tiefgreifende Neuerung der intelligenten Interaktionsmethoden. Mit dem Fortschritt der Forschung dürfen wir erwarten, dass VITA uns eine intelligentere und benutzerfreundlichere Interaktionserfahrung bietet.

论文地址/Paper-Adresse: https://arxiv.org/pdf/2408.05211