VisRAG ist ein innovativer RAG-Prozess (Retrieval-Augmented Generation), der auf einem visuellen Sprachmodell (VLM) basiert. Im Gegensatz zu traditionellen textbasierten RAG-Systemen bettet VisRAG Dokumente direkt als Bilder über ein VLM ein und führt dann eine Suche durch, um die Generierungsfähigkeit des VLM zu verbessern. Dieses Verfahren bewahrt die Dateninformationen der Originald Dokumente maximal und eliminiert Informationsverluste, die während der Analyse entstehen können. Die Anwendung des VisRAG-Modells auf multimodale Dokumente zeigt sein großes Potenzial in der Informationsbeschaffung und der verbesserten Textgenerierung.