VisRAG est un processus RAG (Retrieval-Augmented Generation) innovant basé sur un modèle linguistique visuel (VLM). Contrairement aux RAG traditionnels basés sur du texte, VisRAG utilise directement les documents sous forme d'images pour l'intégration par le VLM, puis procède à une recherche pour améliorer les capacités de génération du VLM. Cette méthode préserve au maximum les informations contenues dans les documents originaux et élimine les pertes d'information introduites lors de l'analyse. L'application du modèle VisRAG aux documents multimodaux démontre son fort potentiel en matière de recherche d'information et de génération de texte enrichie.