Am 10. April präsentierte SenseTime auf seinem Technologie-Austauschtag sein neuestes multimodal integriertes großes Sprachmodell „SenseNova V6“ und das „SenseCore 2.0“-System. Dieses neue Modell zielt darauf ab, Text-, Bild- und Videoinformationen zu kombinieren und den Nutzern ein natürlicheres und reichhaltigeres interaktives Erlebnis zu bieten.
Die SenseNova V6-Serie umfasst vier Versionen, wobei die bemerkenswerteste SenseNova V6Pro ist. Sie verwendet eine hybride Expertenarchitektur mit 620 Milliarden Parametern und zeigt beeindruckende multimodale Integrationsfähigkeiten. SenseNova V6Reasoner Pro erweitert dies um multimodale Inferenzfähigkeiten und ermöglicht tiefere logische Analysen. SenseNova V6Video konzentriert sich auf das Verständnis von Videos, fasst effektiv Videomaterial zusammen und analysiert es eingehend, während SenseNova V6Omni ein leichtgewichtiges, multimodal interaktives Modell ist, das Sprache, Sprache und Video kombiniert und Echtzeit-Interaktionen bietet.
In der Live-Demo zeigte SenseNova V6 seine einzigartigen multimodalen Fähigkeiten. Benutzer konnten mit dem Modell über Fotos handgeschriebener Mathematikaufgaben interagieren. Das Modell konnte nicht nur die Aufgaben lösen, sondern auch die Antworten des Benutzers analysieren, den Benutzer durch Sprachanweisungen schrittweise zum Verständnis des Lösungswegs führen und sogar bei Problemen in Echtzeit Unterstützung bieten. Dies macht SenseNova V6 zu einem persönlichen Tutor.
SenseTime-Mitgründer Linda Hua erklärte, dass zukünftige Interaktionen zwangsläufig multimodal sein werden und SenseTime das Ziel verfolgt, die Kerntechnologien zukünftiger Interaktionen zu beherrschen. Er betonte, dass es in China derzeit relativ wenig Forschung und Entwicklung im Bereich der multimodalen Inferenz und Interaktion gibt, und SenseTime möchte seine Stärken im Bereich Computer Vision nutzen, um frühzeitig den Markt für multimodale große Sprachmodelle zu erschließen.
Darüber hinaus ist die multimodale Fähigkeit von SenseTimes SenseNova V6Pro bereits mit internationalen Top-Modellen wie Gemini 2.0 Pro und GPT-4.5 vergleichbar. SenseTime betont, dass starke Inferenz, starke Interaktion und langes Gedächtnis die drei wichtigsten technologischen Durchbrüche sind. Diese Fähigkeiten ermöglichen es dem Modell nicht nur, die Absichten des Menschen besser zu verstehen, sondern auch eine engere Beziehung zum Benutzer aufzubauen.
SenseTime plant, SenseNova V6 in reale Anwendungsszenarien zu integrieren, um die Bedürfnisse der Benutzer in verschiedenen Bereichen zu erfüllen. Neue Anwendungsszenarien umfassen Bereiche wie Bildung, Übersetzung und Tourismus. SenseTime arbeitet auch mit dem Unternehmen für verkörperte Intelligenz, Fourier Intelligence, zusammen, um Robotern ein besseres Umgebungsverständnis und eine verbesserte Mensch-Maschine-Interaktion zu ermöglichen und eine wirklich intelligente Zukunft zu verwirklichen.