Megrez-3B-Omni est un modèle d'interprétation multimodale pour les appareils de bout en bout développé par Wu Wenxin Qiong. Basé sur l'extension du modèle de langage large Megrez-3B-Instruct, il possède des capacités d'analyse et de compréhension de données de trois modalités : images, texte et audio. Ce modèle atteint une précision optimale en interprétation d'images, de langage et vocale. Il prend en charge la saisie vocale en chinois et en anglais, ainsi que les dialogues multitours. Il permet de poser des questions vocales sur des images saisies et de répondre directement par texte à des instructions vocales. Il a obtenu des résultats de pointe sur plusieurs tâches de référence.