A colaboração entre a Escola Politécnica Federal de Lausanne (EPFL) na Suíça e a Apple resultou no framework 4M, que resolve os desafios do treinamento de modelos visuais básicos multimodais. Este framework utiliza a tecnologia Transformer, processando múltiplas modalidades de entrada através de tokenizadores específicos para cada modalidade, melhorando assim a escalabilidade e a eficiência. Treinado com máscaras de entrada e alvo, o 4M demonstrou excelente desempenho em várias tarefas visuais, mostrando um enorme potencial.