MinMo ist ein von den Alibaba Group Tongyi Labs entwickeltes multimodaler großes Sprachmodell mit ca. 8 Milliarden Parametern, das sich auf die nahtlose Sprachinteraktion konzentriert. Es wurde in mehreren Trainingsphasen, einschließlich Sprach-zu-Text-Ausrichtung, Text-zu-Sprach-Ausrichtung, Sprach-zu-Sprach-Ausrichtung und Vollduplex-Interaktionsausrichtung, mit 1,4 Millionen Stunden vielfältiger Sprachdaten und einer breiten Palette von Sprachaufgaben trainiert. MinMo erreicht in verschiedenen Benchmarks für Sprachverständnis und -generierung State-of-the-Art-Performance, behält gleichzeitig die Fähigkeiten eines textbasierten großen Sprachmodells bei und unterstützt Vollduplex-Dialoge, d. h. die gleichzeitige bidirektionale Kommunikation zwischen Benutzer und System. Darüber hinaus präsentiert MinMo einen neuartigen und einfachen Sprachdecoder, der in der Sprachgenerierung bestehende Modelle übertrifft. Die Fähigkeit von MinMo, Anweisungen zu befolgen, wurde verbessert und unterstützt die Steuerung der Sprachgenerierung durch Benutzeranweisungen, einschließlich Details wie Emotionen, Dialekt und Sprechgeschwindigkeit, sowie die Nachahmung bestimmter Stimmen. Die Sprach-zu-Text-Verzögerung von MinMo beträgt ca. 100 Millisekunden, die Vollduplex-Verzögerung beträgt theoretisch ca. 600 Millisekunden und in der Praxis ca. 800 Millisekunden. Die Entwicklung von MinMo zielt darauf ab, die bisherigen Hauptbeschränkungen bei der Ausrichtung multimodaler Modelle zu überwinden und den Benutzern ein natürlicheres, flüssigeres und menschenähnlicheres Sprachinteraktionserlebnis zu bieten.