Lors de la Conférence mondiale sur l'intelligence artificielle 2024, SenseTime a lancé « Rixin 5o », le premier modèle WYSIWYG (What You See Is What You Get) du pays. Ce modèle offre une expérience interactive comparable à celle de GPT-4o, permettant une interaction multimodale en temps réel. En intégrant des informations multimodales telles que la voix, le texte, les images et les vidéos, il peut comprendre et répondre en temps réel. Par exemple, il peut identifier les badges des employés pour déterminer leur emplacement dans la salle, décrire l'apparence et les vêtements d'un jouet en forme de chien, et même commenter instantanément un dessin fait à la main par un employé.
La capacité d'interaction en temps réel du modèle « Rixin 5o » est particulièrement adaptée aux applications telles que la conversation en temps réel et la reconnaissance vocale. Il peut gérer plusieurs tâches simultanément au sein du même modèle et adapter son comportement et sa sortie en fonction du contexte. Ce modèle est basé sur le modèle de base « Rixin 5.5 », lui-même une version améliorée de « Rixin 5.0 » lancée en avril dernier. Ses performances globales ont été améliorées de 30 % en moyenne, notamment en termes de raisonnement mathématique, de compétences en anglais et de suivi d'instructions.
« Rixin 5.5 » utilise une architecture hybride combinant le cloud et les terminaux. Il a été entraîné sur plus de 10 To de données de haute qualité, y compris des données de chaînes de pensée synthétiques, afin d'améliorer ses capacités de raisonnement. Pour faciliter l'accès des entreprises, SenseTime a lancé le programme « Grand Modèle 0€ Go », offrant plusieurs services gratuits aux nouveaux utilisateurs, dont un pack de 50 millions de jetons, ainsi qu'un conseiller dédié pour aider les utilisateurs d'OpenAI à migrer leurs données, le tout sans aucun coût de service.