Der Sternenhimmel der Open-Source-KI wurde gestern Abend von einem neuen Stern erleuchtet! Das mit Spannung erwartete Bildbearbeitungsframework Step1X-Edit ist am 24. April 2025 offiziell in der Hugging Face Community erschienen und hat sofort die Begeisterung von Entwicklern und Kreativen weltweit entfacht. Dies ist nicht nur die Veröffentlichung eines weiteren Open-Source-Tools, sondern eher eine starke Herausforderung für die bestehende Bildbearbeitungslandschaft.
Step1X-Edit kombiniert gekonnt ein leistungsstarkes multimodales großes Sprachmodell (Qwen-VL) mit einem fortschrittlichen Diffusions-Transformator (DiT) und ermöglicht es Benutzern, mithilfe einfacher natürlicher Sprachbefehle erstaunlich präzise Bildbearbeitungen durchzuführen. Seine herausragende Leistung wagt es sogar, sich direkt mit Top-Closed-Source-Modellen wie GPT-4o und Gemini2Flash zu messen. Mit seiner Veröffentlichung wurde auch ein völlig neuer GEdit-Bench-Benchmark veröffentlicht, der einen umfassenderen Maßstab für die Messung der Bildbearbeitungsergebnisse in realen Szenarien setzt. Noch aufregender ist, dass das Projekt unter der Apache2.0-Lizenz steht, vollständig Open Source ist und alle technischen Details auf Hugging Face und arXiv veröffentlicht wurden. Eine Open-Source-Revolution in der Bildbearbeitung steht bevor.
Der Kernreiz von Step1X-Edit liegt in der nahtlosen Kombination des „intelligenten Gehirns“ von Qwen-VL mit der „gekonnten Maltechnik“ von DiT, die Benutzern eine noch nie dagewesene Flexibilität und Präzision bietet. Stellen Sie sich vor: Sie müssen nicht mehr mit komplexen Werkzeugleisten kämpfen, sondern geben einfach Befehle, als würden Sie mit einer Person sprechen, z. B. „Ändern Sie den Hintergrund dieses Fotos in einen glitzernden Sternenhimmel“ oder „Passen Sie die Kleidung der Person auf dem Bild an und machen Sie sie zu einem Retro-Stil“. Dieser KI-Bearbeitungsmeister versteht sofort. Qwen-VL versteht Ihre Absicht tiefgreifend und generiert präzise Befehle zur Bearbeitungseinbettung; anschließend übernimmt das DiT-Netzwerk, der versierte „digitale Maler“, decodiert diese Befehle und zeichnet das Bild in hoher Auflösung (bis zu 1024 x 1024) detailliert nach, wobei gleichzeitig die Textur, die Beleuchtung und die Farbharmonie des Originalbildes sorgfältig beibehalten werden, um sicherzustellen, dass jede Bearbeitung wie Magie natürlich wirkt.
Es kann nicht nur ein oder zwei einfache Aufgaben bewältigen, sondern deckt bis zu 11 gängige Bearbeitungstypen ab, von Hintergrundwechsel und Objektentfernung bis hin zu Stilübertragung und lokaler Feinabstimmung. Es kann fast alle Ihre Ideen zur Bildbearbeitung erfüllen. Noch wichtiger ist, dass die Apache2.0-Lizenz bedeutet, dass alles kostenlos und offen ist. In Kombination mit der Hugging Face-Modellkarte und dem vollständigen Code auf GitHub ist die schnelle Bereitstellung und Verwendung sowie die Weiterentwicklung zum Greifen nah. Der neue GEdit-Bench-Benchmark wurde auf der Grundlage einer riesigen Anzahl von Befehlen echter Benutzer erstellt und deckt eine Vielzahl von Bearbeitungsszenarien ab. Er ist nicht nur der Prüfstein für Step1X-Edit, sondern bietet der gesamten Branche auch ein Maß, das der realen Anwendung näher kommt. Erste Tests der Community haben bereits für Begeisterung gesorgt: Ein Tagesfoto einer Stadtlandschaft kann mit Step1X-Edit in nur etwa 22 Sekunden (1024 x 1024 Auflösung) geschickt in eine Nachtszene umgewandelt werden. Dabei bleiben nicht nur die Details der Gebäude erhalten, sondern auch die faszinierenden Lichteffekte werden perfekt verarbeitet – Effizienz und Wirkung vereint.
Bei der Erforschung der technischen Geheimnisse dahinter beruht der Erfolg von Step1X-Edit auf der gemeinsamen Innovation von multimodalen LLMs und Diffusionsmodellen. Qwen-VL (basierend auf der Version Qwen2-VL-7B-Instruct) kann dank seiner einzigartigen Multimodal Rotary Position Embedding (M-ROPE)-Technologie sowohl Bild- als auch Texteingaben verstehen und komplexe Bearbeitungsbefehle in semantisch aussagekräftige Bearbeitungseinbettungen umwandeln. Dies ist der Schlüssel zur präzisen Befolgung von Anweisungen. DiT, die Engine für die Bilderzeugung, wandelt diese abstrakten Anweisungen in pixelgenaue reale Bilder um und erreicht ein ausgezeichnetes Gleichgewicht zwischen Geschwindigkeit und Qualität der Generierung.
Um eine so leistungsstarke Fähigkeit zu schaffen, hat das Entwicklungsteam einen riesigen Datensatz mit über 1 Million hochwertigen Tripletts (Originalbild, Bearbeitungsbefehl, Zielbild) erstellt, um sicherzustellen, dass das Modell unter verschiedenen Bedingungen robust funktioniert. Auf Code-Ebene wurde es nahtlos in die neueste Hugging Face Transformers-Bibliothek integriert und wird zur Beschleunigung der Inferenz mit Flash Attention2 empfohlen, um die Effizienz weiter zu steigern. Unter der strengen Prüfung von GEdit-Bench übertraf Step1X-Edit alle bekannten Open-Source-Baseline-Modelle und zeigte eine Leistung, die sich den Top-Closed-Source-Modellen nähert. Man kann sagen, dass Step1X-Edit eine ähnliche leistungsstarke Befehlsverständnisfähigkeit wie DALL-E3 besitzt, aber durch die offene Apache2.0-Lizenz technologische Barrieren durchbricht und einen perfekten Ausgleich zwischen Leistung und Zugänglichkeit findet.
Diese enorme Vielseitigkeit macht Step1X-Edit in einer Vielzahl von Branchen und kreativen Prozessen einsetzbar, die Bildbearbeitung benötigen. Im E-Commerce- und Werbebereich kann es blitzschnell Präsentationen desselben Produkts in verschiedenen Hintergründen und Lichtverhältnissen erstellen und die Effizienz der Erstellung von Marketingmaterialien erheblich steigern. Dies ist zweifellos eine gute Nachricht für Händler auf Plattformen wie Shopify und Amazon. Für digitale Künstler und NFT-Schöpfer kann Step1X-Edit, egal ob es sich um eine mutige Stilübertragung oder eine präzise lokale Anpassung handelt, ein Werkzeug zur Inspiration sein und OpenSea und anderen Märkten mehr einzigartige visuelle Assets liefern.
Content-Ersteller können damit auch aufmerksamkeitsstarke Inhalte für Social-Media-Plattformen wie Instagram und TikTok erstellen, z. B. Lebensfotos mit einem Klick in einen beliebten Cartoon-Stil umwandeln oder festliche Elemente zu Feiertagen hinzufügen. Selbst in der Film- und Spielebranche kann es in der Konzeptkunstphase seine Stärken ausspielen und schnell Szenenentwürfe oder Charakter-Skin-Konzepte erstellen, wodurch die Kosten der Vorproduktion effektiv gesenkt werden. Für KI-Forscher sind das Open-Source-Framework selbst und der zugehörige GEdit-Bench-Benchmark zweifellos wertvolle Ressourcen, um die Iteration der Bilderzeugungs-Technologie zu beschleunigen. Community-Beispiele zeigen, dass ein E-Commerce-Unternehmen Step1X-Edit verwendet hat, um für Kleidung Präsentationen in verschiedenen Szenarien wie Strand und Stadt zu erstellen. Die Zeit für die Erstellung von Materialien soll um erstaunliche 70 % reduziert worden sein. Weitsichtige Beobachter weisen darauf hin, dass die Kombination mit Videobearbeitungstechnologien wie 3DV-TON in Zukunft diese leistungsstarke Bearbeitungsfähigkeit auf die Erstellung dynamischer Inhalte ausweiten könnte.
Möchten Sie die Magie von Step1X-Edit selbst erleben? Es ist bereits auf Hugging Face und GitHub vollständig geöffnet. Beachten Sie jedoch, dass für die volle Nutzung der 1024 x 1024 Auflösung eine High-End-GPU mit ca. 50 GB VRAM (z. B. A100) empfohlen wird. Die Inbetriebnahme ist relativ einfach: Klonen Sie das GitHub-Repository, installieren Sie die notwendigen Abhängigkeiten, laden Sie die vortrainierten Qwen-VL- und DiT-Modelle und konfigurieren Sie gegebenenfalls Flash Attention2 zur Beschleunigung. Geben Sie dann einfach Ihr Bild und den Bearbeitungsbefehl ein (z. B. „Ändern Sie den Himmel in eine Sonnenuntergangsszene“), führen Sie die Inferenz aus und erleben Sie das Wunder.
Die generierten Bilder können einfach als PNG- oder JPEG-Dateien exportiert oder mit einem Klick in die Cloud hochgeladen oder in Design-Tools wie Figma importiert werden. Die Community-Erfahrungen empfehlen, dass eine detailliertere Beschreibung für komplexe Bearbeitungsaufgaben die Qualität der Generierung verbessern kann. Wenn die Hardware-Ressourcen begrenzt sind, ist die Verwendung einer Auflösung von 512 x 512 (ca. 42 GB VRAM erforderlich, Generierungszeit ca. 5 Sekunden) eine gute Alternative. Die Bearbeitung extrem komplexer Szenen (z. B. die Interaktion mehrerer Objekte) erfordert möglicherweise weiterhin die Unterstützung von Top-Hardware. Es ist ratsam, die offiziellen Updates zu verfolgen, um optimierte Versionen zu erhalten.
Die Veröffentlichung von Step1X-Edit hat in der Community eine große Resonanz ausgelöst, und sein vollständiger Open-Source-Geist und die beeindruckende Bearbeitungsqualität wurden weithin gelobt. Entwickler äußerten begeistert, dass „die hochpräzise Bildbearbeitung von der Monopolstellung der Closed-Source-Giganten befreit und der gesamten Open-Source-Community zugänglich gemacht wurde“. Seine hervorragende Leistung bei GEdit-Bench wird immer wieder erwähnt. Der hohe VRAM-Bedarf (50 GB für die volle Auflösung) stellt jedoch tatsächlich eine Hürde für viele private Nutzer dar, daher ist die Optimierung der Inferenz-Effizienz ein allgemeiner Wunsch der Community. Darüber hinaus wünschen sich die Entwickler Unterstützung für die Videobearbeitung und flexiblere und kontrollierbarere Stileinstellungen.
Erfreulich ist, dass das Entwicklungsteam bereits positiv reagiert und versprochen hat, in zukünftigen Versionen die Hardware-Anforderungen zu senken und die Integration mit dem leistungsstärkeren Qwen2.5-VL-72B-Modell zu untersuchen, um das multimodale Verständnis und die Verarbeitungsfähigkeit weiter zu verbessern. Analysten prognostizieren, dass Step1X-Edit, um mehr Menschen die Nutzung dieser Technologie zu ermöglichen, in Zukunft möglicherweise DeepWiki und anderen Projekten folgen und einen komfortablen Cloud-API-Dienst (SaaS-Modell) anbieten wird, um die Nutzungskosten erheblich zu senken.
Zweifellos ist die Entstehung von Step1X-Edit ein wichtiger Meilenstein im Bereich der Open-Source-Bildbearbeitung. Die von ihm verwendete Architektur, die Qwen-VL und DiT kombiniert, erreicht nicht nur eine Leistung, die sich Closed-Source-Modellen nähert, sondern trägt mit GEdit-Bench auch einen wertvollen Bewertungsstandard für reale Anwendungsszenarien für die Branche bei. Die Community diskutiert bereits intensiv, wie sie in bestehende Toolchains wie DeepWiki und ComfyUI integriert werden kann, um einen vollständigen geschlossenen Workflow von der Code-Interpretation über das visuelle Design bis zur endgültigen Ausgabe zu erstellen. Langfristig könnte sich Step1X-Edit zu einer funktionsreichen „Open-Source-Designplattform“ entwickeln, die ein ähnliches Modell-Ökosystem wie Hugging Face bietet, einschließlich eines umfangreichen Template-Marktes und komfortabler Cloud-Inferenzdienste. Wir erwarten gespannt, dass Step1X-Edit im weiteren Verlauf des Jahres 2025 weitere Überraschungen in Bezug auf die Optimierung von Ressourcen mit geringem Bedarf und die Erweiterung der multimodalen Fähigkeiten bringen wird.
Step1X-Edit bringt mit seinen leistungsstarken multimodalen Befehlsbearbeitungsfunktionen, den erstaunlichen Ergebnissen mit hoher Wiedergabetreue und dem durch und durch offenen Ökosystem eine noch nie dagewesene Dynamik in den Bereich der Bildbearbeitung. Die verwendete Apache2.0-Lizenz und der zugehörige GEdit-Bench-Benchmark fördern die Zusammenarbeit in der Community und die Transparenz der Technologie. Wir empfehlen allen, die sich für die KI-Bildbearbeitung interessieren, die Hugging Face-Seite oder das GitHub-Repository zu besuchen, um die Faszination dieses Frameworks selbst zu erleben oder zur Entwicklung von GEdit-Bench beizutragen und gemeinsam an diesem Maßstab für die Zukunft zu arbeiten. AIbase wird die weitere Entwicklung von Step1X-Edit und seine Anwendung in verschiedenen Branchen weiterhin verfolgen und Ihnen die neuesten technischen Einblicke liefern.
Modell-Adresse: https://huggingface.co/stepfun-ai/Step1X-Edit