A Apple lançou uma bomba no Hugging Face, disponibilizando uma demonstração do seu modelo 4M, apresentado no ano passado. Este modelo consegue processar e gerar conteúdo multi-modal, incluindo texto, imagens e cenas 3D. Um único modelo consegue desmembrar todas as informações de uma imagem, incluindo mapas de profundidade e esboços. O AIbase testou com uma imagem gerada anteriormente com estética chinesa antiga e os resultados foram impressionantes. Após o upload da imagem, as seguintes informações foram rapidamente extraídas:
Basta carregar uma foto para obter facilmente todas as suas informações, como o contorno principal, a tonalidade dominante e as dimensões.
Para a Apple, isso representa uma mudança ousada em sua tradição de sigilo em pesquisa e desenvolvimento. Eles não apenas demonstraram sua força em IA no Hugging Face, uma plataforma de IA open source, mas também estenderam uma mão aos desenvolvedores, na esperança de construir um ecossistema em torno do 4M. A arquitetura multi-modal do 4M sugere que o ecossistema Apple poderá apresentar aplicativos de IA mais integrados e multifuncionais, como uma Siri capaz de lidar com consultas complexas de forma mais inteligente, ou um Final Cut Pro que edite vídeos automaticamente com base em comandos de voz.
No entanto, o lançamento do 4M também apresenta desafios relacionados à prática de dados e à ética da IA. A Apple sempre se posicionou como guardiã da privacidade do usuário, mas sua postura poderá ser testada diante de um modelo de IA tão intensivo em dados? A Apple precisa equilibrar cuidadosamente o avanço tecnológico com a manutenção da confiança do usuário.
Vamos entender brevemente os princípios técnicos do 4M. O maior destaque do 4M é seu método de treinamento de "modelagem de mascaramento multi-modal em larga escala". Esse método de treinamento consegue processar simultaneamente múltiplas modalidades visuais, sejam informações de imagem, semânticas ou geométricas, convertendo-as em tokens unificados, permitindo uma integração perfeita entre as modalidades.
Durante o treinamento, o 4M utiliza um método inteligente: seleciona aleatoriamente parte das marcações como entrada e outra parte como alvo, alcançando assim a escalabilidade do objetivo de treinamento. Isso significa que, tanto imagens quanto texto são apenas sequências de tokens numéricos para o 4M, um design que aumenta significativamente a versatilidade do modelo.
Os dados e métodos de treinamento do 4M também merecem destaque. Ele utiliza o CC12M, um dos maiores conjuntos de dados abertos do mundo. Embora rico em dados, este conjunto não possui informações de anotação completas. Para resolver isso, os pesquisadores utilizaram um método de pseudo-rotulagem fracamente supervisionado, usando tecnologias como CLIP e MaskRCNN para realizar previsões completas no conjunto de dados, convertendo então os resultados da previsão em tokens, criando a base para a compatibilidade multi-modal do 4M.
Após extensos experimentos e testes, o 4M comprovou sua capacidade de executar tarefas multi-modais diretamente, sem a necessidade de extenso pré-treinamento ou ajuste fino para tarefas específicas. É como dar à IA uma faca suíça multi-modal, permitindo-lhe lidar com diversos desafios de forma flexível.
Endereço da demonstração: https://huggingface.co/spaces/EPFL-VILAB/4M