Pali3 est un modèle de langage visuel qui génère les réponses souhaitées en codant les images et en les transmettant avec la requête à un transformateur encodeur-décodeur. Le modèle a été entraîné en plusieurs étapes, incluant le pré-entraînement unimodal, l’entraînement multimodal, l’augmentation de la résolution et la spécialisation des tâches. Les principales fonctions de Pali3 incluent le codage d’images, le codage de texte et la génération de texte. Ce modèle convient aux tâches de classification d’images, de légendage d’images et de question-réponse visuelle. Les avantages de Pali3 résident dans sa structure simple, son entraînement efficace et sa vitesse. Ce produit est proposé gratuitement et en open source.