Lors de la journée d'échange technologique de SenseTime le 10 avril, SenseTime a dévoilé son dernier grand modèle multimodal, « SenseNova V6 » et son système « SenseCore 2.0 ». Ce nouveau grand modèle vise à intégrer plusieurs formes d'informations, telles que le texte, les images et les vidéos, afin d'offrir aux utilisateurs une expérience interactive plus naturelle et riche.
La série SenseNova V6 lancée cette fois comprend quatre versions. La plus remarquable est SenseNova V6Pro, qui utilise une architecture d'expert hybride de 620 milliards de paramètres et affiche de puissantes capacités de fusion multimodales. SenseNova V6Reasoner Pro, quant à lui, améliore les capacités de raisonnement multimodal et permet une analyse logique plus approfondie. De plus, SenseNova V6Video se concentre sur la compréhension vidéo, capable de résumer efficacement le contenu vidéo et d'effectuer une analyse approfondie, tandis que SenseNova V6Omni est un modèle d'interaction multimodal léger qui combine le langage, la voix et la vidéo pour fournir une interaction en temps réel.
Lors d'une démonstration sur site, SenseNova V6 a montré ses capacités multimodales uniques. Les utilisateurs peuvent interagir avec le modèle en lui montrant une photo d'un problème de mathématiques écrit à la main ; le modèle peut non seulement résoudre le problème, mais aussi analyser la réponse de l'utilisateur, guider l'utilisateur étape par étape dans la compréhension de la démarche de résolution par la voix, et même fournir une assistance en temps réel lorsque l'utilisateur rencontre des problèmes. Cette fonctionnalité fait de SenseNova V6 un tuteur privé.
Lin Dahua, cofondateur de SenseTime, a déclaré que les interactions futures seraient forcément multimodales et que l'objectif de SenseTime était de maîtriser les technologies clés de ces interactions. Il a souligné que les entreprises chinoises étaient relativement peu nombreuses à développer des capacités de raisonnement et d'interaction multimodales, et que SenseTime souhaitait, grâce à ses atouts en vision par ordinateur, prendre une longueur d'avance sur le marché des grands modèles multimodaux.
De plus, les capacités multimodales de SenseNova V6Pro de SenseTime sont déjà en mesure de rivaliser avec les modèles internationaux les plus populaires, tels que Gemini 2.0 Pro et GPT-4.5. SenseTime a également souligné que le raisonnement puissant, l'interaction puissante et la mémoire à long terme constituaient les trois percées clés de ses capacités technologiques. Ces capacités permettent non seulement au modèle de mieux comprendre les intentions humaines, mais aussi d'établir une relation d'interaction plus chaleureuse avec les utilisateurs.
SenseTime prévoit d'intégrer SenseNova V6 dans de véritables scénarios d'application afin de répondre aux besoins des utilisateurs dans différents domaines. Les nouveaux scénarios d'application couvrent plusieurs secteurs, tels que l'enseignement, la traduction et le tourisme. SenseTime collabore également avec Fourier Intelligence, une entreprise spécialisée dans l'intelligence incarnée, afin de doter les robots d'une meilleure compréhension de l'environnement et d'une capacité d'interaction homme-machine plus forte, pour une véritable réalisation de l'avenir intelligent.