ByteDance Bildgenerierungsframework InfiniteYou: Gesichtsmerkmale bleiben erhalten, Szenen beliebig wechselbar

ByteDance hat heimlich ein Bildgenerierungswerkzeug namens InfiniteYou (InfU) herausgebracht. Einfach ausgedrückt, ist es ein Text-zu-Bild-Generierungsmodell, dessen Stärke darin liegt, auf Basis Ihrer Texteingabe hochwertige Bilder mit Ihren persönlichen Merkmalen zu generieren.

Dies ist weit mehr als eine einfache Face-Swap-App. Es liegt der Fokus darauf, bei flexibler Veränderung von Szenen und Inhalten Ihre Identität präzise zu erhalten. Stellen Sie sich vor: Sie können mühelos Bilder von sich selbst generieren, wie Sie im Raumanzug im Weltraum spazieren gehen oder in traditioneller Kleidung in die Vergangenheit reisen – und Ihr Gesicht bleibt dabei Ihr eigenes. Klingt cool, oder?

„InfiniteYou“ kann dies dank einer Kombination verschiedener Technologien.

Kernwaffe: InfuseNet. Das Herzstück von „InfiniteYou“ ist die Geheimwaffe InfuseNet. Es integriert Ihre persönlichen Merkmale geschickt in ein fortschrittliches Bildgenerierungsmodell namens Diffusion Transformer (DiT) (z. B. FLUX). InfuseNet ist wie ein erfahrener Visagist, der durch „Residual Connections“ die Gesichtsähnlichkeit erhöht, ohne die ursprünglichen Generierungsmöglichkeiten zu beeinträchtigen.
Mehrstufiges Training: Streben nach Perfektion. „InfiniteYou“ entstand nicht über Nacht, sondern durchlief ein Pretraining und ein Supervised Fine-Tuning (SFT) mit synthetischen Single-Person-Multi-Sample (SPMS) Daten. Diese präzise Trainingsstrategie verbessert deutlich die Ausrichtung von Text und Bild, sodass die generierten Bilder Ihrer Beschreibung besser entsprechen. Gleichzeitig wird die Bildqualität und Ästhetik verbessert und das Problem der häufigen, unnatürlichen Gesichtsüberlagerung bei „Face Swapping“ effektiv gemildert.
Modell „Doppelversicherung“: Unterschiedliche Schwerpunkte. ByteDance hat zwei Modellversionen veröffentlicht: aes_stage2 und sim_stage1. aes_stage2 ist ein nach der zweiten Feinabstimmung trainiertes Modell und bietet standardmäßig eine bessere Text-Bild-Ausrichtung und Ästhetik. Wenn Ihnen die Gesichtsähnlichkeit wichtiger ist, wählen Sie sim_stage1. Ähnlich wie beim Kauf eines Handys: Eines legt Wert auf die Kamera, das andere auf die Leistung – für jeden ist etwas dabei.

Vergleichstests zeigen, dass „InfiniteYou“ in Bezug auf Identitätsähnlichkeit, Text-Bild-Ausrichtung, Bildqualität und Ästhetik bestehende Verfahren wie FLUX.1-dev IP-Adapter und PuLID-FLUX übertrifft. Diese Methoden leiden entweder unter mangelnder Gesichtsähnlichkeit, einer Diskrepanz zwischen Textbeschreibung und Bildinhalt oder einer schlechten Bildqualität, bis hin zu unnatürlichen Überlagerungen des Gesichts bei „Face Swapping“. Im Vergleich dazu ist „InfiniteYou“ umfassender und leistungsfähiger.

Noch überraschender ist die „Plug-and-Play“-Funktionalität von „InfiniteYou“. Es lässt sich nahtlos in verschiedene Varianten von FLUX.1-dev (z. B. das effizientere FLUX.1-schnell), ControlNets und LoRAs integrieren und bietet so eine höhere Steuerbarkeit und Anpassungsfähigkeit. Es kann sogar mit IP-Adapter kombiniert werden, um einen personalisierten Stiltransfer zu ermöglichen. Diese starke Kompatibilität wird zweifellos einen wertvollen Beitrag zur Community leisten.

Zu beachten ist, dass „InfiniteYou“ derzeit unter der Creative Commons Attribution-NonCommercial 4.0 International Public License veröffentlicht und nur für die akademische Forschung bestimmt ist. Das Herunterladen und Verwenden der zugehörigen Modelle (z. B. das InsightFace-Gesichtsmodell, das FLUX.1-dev-Basismodell und LoRA) muss deren ursprünglichen Lizenzen entsprechen. Die Entwickler bitten die Nutzer außerdem, die lokalen Gesetze und Vorschriften einzuhalten und diese Technologie verantwortungsbewusst zu nutzen, um Missbrauch zu vermeiden.

Projektseite: https://top.aibase.com/tool/infiniteyou

KI-Nachrichten und -Informationen

ByteDance Bildgenerierungsframework InfiniteYou: Gesichtsmerkmale bleiben erhalten, Szenen beliebig wechselbar

AIbase基地