Das von Hugging Face entwickelte aMUSEd-Modell kann innerhalb weniger Sekunden Bilder generieren. Es basiert auf einem leichtgewichtigen Text-zu-Bild-Modell und nutzt die Masked Image Model (MIM)-Architektur. Dies reduziert die Inferenzschritte erheblich und verbessert sowohl die Generierungsgeschwindigkeit als auch die Interpretierbarkeit. Das aMUSEd-Modell kann in einer Demo auf Hugging Face ausprobiert werden. Es wird derzeit als Forschungs-Preview mit der OpenRAIL-Lizenz angeboten und die Community wird zur weiteren Erforschung von nicht-diffusionsbasierten Frameworks für die Bilderzeugung ermutigt.
Hugging Face präsentiert aMUSEd-Modell: Bilderzeugung in Sekundenschnelle
