Googles innovatives KI-Bildwerkzeug Whisk: Mehrere Bilder hochladen, um Motiv, Szene und Stil zu kombinieren

Googles Labor hat kürzlich in den USA das neueste generative KI-Experimentierwerkzeug Whisk vorgestellt. Im Gegensatz zu traditionellen Bildgenerierungswerkzeugen, die hauptsächlich auf Textprompts angewiesen sind, konzentriert sich Whisk auf die Verwendung von Bildern als Eingabemethode, um Benutzern eine intuitivere Möglichkeit zur Erstellung von Kunstwerken zu bieten.

Benutzer können Bilder direkt in Whisk hochladen oder innerhalb des Tools Bilder generieren und dabei Elemente wie Thema, Szene und Stil festlegen. Das Whisk-System unterstützt das Mischen und Anpassen dieser Komponenten und ermöglicht bei Bedarf die Feinabstimmung mit zusätzlichen Textprompts.

Bemerkenswert ist, dass im Hintergrund Googles Sprachmodell (möglicherweise das kürzlich veröffentlichte Gemini 2.0 Flash) automatisch eine detaillierte Beschreibung des eingegebenen Bildes generiert. Diese Beschreibungen werden in Googles neuestes Bildgenerierungsmodell Imagen 3 eingespeist, um die wesentlichen Merkmale des Motivs zu erfassen, anstatt eine exakte Kopie zu erstellen.

AIbase hat mehrere Tests durchgeführt. Durch das Hochladen von drei Bildern (links) konnte ein fusioniertes Ergebnis (rechts) generiert werden. Das Ergebnis ist recht gut und das Tool bietet einen hohen Spielwert. Wie folgt:

Da Whisk jedoch nur wenige Schlüsselelemente aus jedem Quellbild extrahiert, weist Google darauf hin, dass das Ergebnis des generierten Bildes möglicherweise von den Erwartungen abweicht. Beispielsweise kann das generierte Bild in Höhe, Gewicht, Frisur oder Hautfarbe von den Originalbildern abweichen.

Google erklärt dazu, dass diese Details oft entscheidend für den Erfolg eines Projekts sind, und ermöglicht es den Benutzern daher, die Textprompts einzusehen und zu bearbeiten, die den Bildgenerierungsprozess steuern.

Erste Tester, darunter Künstler und Kreative, beschreiben Whisk eher als ein neues kreatives Werkzeug denn als einen traditionellen Bildbearbeitungsprogramm. Google hofft, dass das Tool Benutzern hilft, schnell visuelle Brainstormings durchzuführen, anstatt präzise Bearbeitungen vorzunehmen, sodass Benutzer schnell mehrere Optionen generieren und filtern können, bevor sie ihre Lieblingswerke speichern.

Bei ersten Tests war die Bedienung von Whisk zwar sehr angenehm, aber die Generierung eines neuen Bildes dauerte einige Sekunden. Diese Verzögerungen könnten auf einen hohen Datenverkehr zurückzuführen sein, da viele Benutzer das neue Tool ausprobieren.

Derzeit ist Whisk nur für Benutzer in den USA verfügbar. Benutzer können es unter labs.google/whisk kostenlos testen und Feedback geben. Benutzer aus anderen Ländern haben derzeit keinen Zugriff auf dieses Tool.

Whisk gehört zu Google Labs, Googles Experimentierfeld zum Testen seiner KI-Projekte, darunter Gemini, Imagen und das neueste Videomodel Veo2. Obwohl sich die meisten Projekte noch in der Experimentierphase befinden, werden einige erfolgreiche Projekte, wie der kürzlich offiziell veröffentlichte KI-Assistent NotebookLM, zu vollständigen Produkten weiterentwickelt.

Produkt-Testseite: https://top.aibase.com/tool/whisk

Wichtigste Punkte:
🌟 Google präsentiert Whisk, das erste generative KI-Tool, das hauptsächlich auf Bildern basiert.
🎨 Benutzer können Bilder hochladen oder generieren und so schnell visuelle Designs erstellen, anstatt präzise Bearbeitungen vorzunehmen.
🚫 Derzeit nur für Benutzer in den USA verfügbar, Zugriff für andere Länder ist derzeit nicht möglich.

KI-Nachrichten und -Informationen

Googles innovatives KI-Bildwerkzeug Whisk: Mehrere Bilder hochladen, um Motiv, Szene und Stil zu kombinieren

AIbase基地