A startup de inteligência artificial Luma anunciou recentemente na plataforma X que lançou um código aberto para uma técnica de pré-treinamento de modelos de imagem chamada Inductive Moment Matching (IMM). Essa tecnologia inovadora, com suas características de alta eficiência e estabilidade, gerou grande interesse e é considerada um avanço significativo no campo da IA generativa.
De acordo com o usuário do X linqi_zhou, o IMM é um novo paradigma generativo que permite o treinamento estável a partir do zero com um único modelo e um único objetivo, superando os métodos tradicionais em termos de eficiência de amostragem e qualidade da amostra. Em sua postagem, ele expressou entusiasmo: "O IMM atingiu 1,99 FID (Fréchet Inception Distance) em ImageNet256×256 com apenas 8 etapas e 1,98 FID em CIFAR-10 com apenas 2 etapas". Esse desempenho não apenas estabelece um novo padrão na indústria, mas também demonstra seu potencial excepcional.
Em comparação com os modelos de difusão convencionais, o IMM aumenta a eficiência de amostragem em mais de 10 vezes, mantendo uma qualidade de amostra superior. O usuário do X op7418 explicou ainda o princípio técnico: os modelos de difusão tradicionais são limitados pela ineficiência da interpolação linear e da convergência em várias etapas, enquanto o IMM processa simultaneamente a etapa de tempo atual e a etapa de tempo de destino durante a inferência, aumentando significativamente a flexibilidade. Esse design "prioridade de inferência" permite que o modelo gere imagens de alta qualidade com menos etapas, superando o gargalo algorítmico dos modelos de difusão.
Além disso, o IMM também apresenta maior estabilidade de treinamento do que os modelos de consistência. op7418 apontou em sua postagem que, em comparação com a dinâmica de treinamento instável que os modelos de consistência tendem a apresentar, o IMM demonstra maior robustez e pode se adaptar a vários hiperparâmetros e arquiteturas de modelos. Essa característica o torna mais confiável em aplicações práticas.
A decisão da Luma de lançar o código aberto do IMM recebeu alta avaliação da comunidade. FinanceYF5 comentou no X: "A Luma Labs lançou o IMM, que aumenta a eficiência da qualidade de geração de imagens em 10 vezes em comparação com os métodos existentes, superando o gargalo algorítmico dos modelos de difusão!" Ele também incluiu um link para uma introdução técnica, incentivando mais usuários a participarem da discussão. O código e os pontos de verificação do IMM já estão disponíveis publicamente no GitHub, e os detalhes técnicos são detalhados em um artigo relevante, demonstrando a determinação da Luma em promover a abertura da pesquisa em IA.
Os dados de desempenho do IMM reforçam ainda mais sua posição de liderança. No conjunto de dados ImageNet256×256, o IMM superou os modelos de difusão (2,27 FID) e Flow Matching (2,15 FID) com 1,99 FID, e o número de etapas de amostragem foi reduzido em 30 vezes; em CIFAR-10, o resultado de amostragem de 2 etapas atingiu 1,98 FID, estabelecendo um novo recorde para esse conjunto de dados. op7418 também mencionou que o IMM possui excelente escalabilidade computacional e seu desempenho continua a melhorar com o aumento da carga de trabalho de treinamento e inferência, estabelecendo uma base para aplicações em maior escala no futuro.
Profissionais da indústria acreditam que o lançamento do código aberto do IMM pode levar a uma mudança de paradigma na tecnologia de geração de imagens. Com suas características de alta eficiência, alta qualidade e estabilidade, essa tecnologia não apenas se aplica à geração de imagens, mas também pode ser expandida para os campos de vídeo e multimídia. A equipe da Luma disse que esta é apenas a primeira etapa em direção a modelos básicos multimodais, e eles esperam desbloquear mais possibilidades de inteligência criativa por meio do IMM.
Com o lançamento do IMM, a posição da Luma na competição global de IA está se tornando cada vez mais proeminente. As amplas perspectivas de aplicação dessa tecnologia e seu impacto disruptivo nos modelos existentes provavelmente continuarão gerando discussões nos próximos meses.