Kürzlich stellte die Firma Mobvoi auf der Global Developer Conference (GDC) ihr neuestes Produkt vor: den mobilen digitalen Avatar „Xiao Wen“. Mit seinem flexiblen, beweglichen Körper, seinen intelligenten Antwortfähigkeiten und der flüssigen Interaktion zog er zahlreiche Besucher in seinen Bann und wurde zu einem Highlight der Konferenz.

Xiao Wen ist ein Produkt der „具身智能“ (Embodied AI), sorgfältig entwickelt von Mobvoi auf Basis von DeepSeek, dem selbst entwickelten großen Sprachmodell „Sequenz-Affe“ und dem Qualcomm QCS8550 Chip. Er besitzt nicht nur einen beweglichen „Körper“, sondern auch ein intelligentes „Gehirn“, ein ansprechendes Aussehen, eine natürlich klingende Stimme und eine schnelle, flüssige Interaktion. Diese Eigenschaften ermöglichen es Xiao Wen, Informationen zu sammeln, schnell Fragen zu beantworten und überzeugt mit Fähigkeiten wie Hindernisvermeidung, Follow-Me-Funktion und Gesichtserkennung.

微信截图_20250222184444.png

Xiao Wen zeigt eine breite Anwendbarkeit. Er kann als KI-Guide in Ausstellungen und Museen eingesetzt werden, als KI-Empfangspersonal in Unternehmen, Behörden und Flughäfen, oder als KI-Reiseführer, der Touristen präzise Routenplanung und Echtzeitinformationen bietet. Diese Anwendungsfälle unterstreichen das enorme Potenzial von Xiao Wen zur Kostenreduktion und Verbesserung der Benutzererfahrung.

Bemerkenswert sind auch die technischen Innovationen. Durch Edge Computing werden digitale Rendering, Mikrofon-Array-Algorithmen und lokale visuelle Algorithmen auf der Geräteebene integriert, was effizientes lokales Rendering und eine geringe Latenz ermöglicht. Xiao Wen unterstützt zudem die Interaktion mit multimodalen digitalen Avataren, darunter 2.5D, 3D und Foto-Avatare, und bietet somit ein vielfältiges Benutzererlebnis.

Auch die Audioqualität ist herausragend. Durch den Einsatz modernster Technologien zur Sprachklonung mit großen Sprachmodellen ist die Klonung einer Stimme innerhalb von nur 3 Sekunden möglich. Ein umfangreicher KI-Sprachdatensatz mit über 1000 Stimmen und Unterstützung für mehrere Sprachen sorgt für ein reichhaltiges Hörerlebnis.

Für die Zukunft plant Mobvoi, die Forschung und Entwicklung im Bereich multimodaler großer Sprachmodelle fortzusetzen, um die Intelligenz und die Interaktion des Produkts stetig zu verbessern. Gleichzeitig wird das Unternehmen die Anwendungsbereiche erweitern und Xiao Wen in immer mehr Bereichen zum Einsatz bringen.