A colaboração entre a Escola Politécnica Federal de Lausanne (EPFL) na Suíça e a Apple resultou no framework 4M, que resolve os desafios do treinamento de modelos visuais básicos multimodais. Este framework utiliza a tecnologia Transformer, processando múltiplas modalidades de entrada através de tokenizadores específicos para cada modalidade, melhorando assim a escalabilidade e a eficiência. Treinado com máscaras de entrada e alvo, o 4M demonstrou excelente desempenho em várias tarefas visuais, mostrando um enorme potencial.
EPFL e Apple lançam em código aberto a estrutura 4M: treinamento multi-modal de modelos básicos multimodais

站长之家
Este artigo é do AIbase Daily
Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.