Cantor

Innovativer multimodaler Kettengedankenrahmen zur Verbesserung der visuellen Schlussfolgerungsfähigkeit

Premium-NeuproduktProduktivitätMultimodalVisuelles Schlussfolgern
Cantor ist ein multimodaler Kettengedanken-(CoT-)Rahmen, der durch eine Wahrnehmungs-Entscheidungsarchitektur die Erfassung visuellen Kontextes mit logischem Schlussfolgern verbindet, um komplexe Aufgaben des visuellen Schlussfolgerns zu lösen. Cantor fungiert zunächst als Entscheidungsgenerator, der visuelle Eingaben integriert, um Bilder und Fragen zu analysieren und eine engere Ausrichtung auf den tatsächlichen Kontext sicherzustellen. Darüber hinaus nutzt Cantor die hochentwickelten kognitiven Funktionen großer Sprachmodelle (MLLMs) als multifasettierte Experten, um Informationen höherer Ordnung abzuleiten und den CoT-Generierungsprozess zu verbessern. Cantor wurde in umfangreichen Experimenten an zwei komplexen Datensätzen für visuelles Schlussfolgern getestet und hat die Wirksamkeit des vorgeschlagenen Rahmens nachgewiesen. Ohne Feinabstimmung oder fundierte Begründungen konnte eine deutliche Verbesserung der multimodalen CoT-Leistung erzielt werden.
Website öffnen

Cantor Alternativen