Le framework 4M : une collaboration entre l'EPFL et Apple

Le framework 4M, fruit d'une collaboration entre l'École polytechnique fédérale de Lausanne (EPFL) et Apple, apporte une solution aux défis liés à l'entraînement de modèles visuels fondamentaux multimodaux. Ce framework utilise la technologie Transformer et traite plusieurs modalités d'entrée grâce à des tokeniseurs spécifiques à chaque modalité, améliorant ainsi son évolutivité et son efficacité.

Entraîné grâce à un système de masquage des entrées et des cibles, le framework 4M excelle dans plusieurs tâches de vision par ordinateur, démontrant un potentiel considérable.