Google hat kürzlich die Wiederaktivierung der Funktion zur Generierung von Personenbildern für seinen KI-Chatbot Gemini angekündigt. Diese Entscheidung folgt auf die umstrittene vorübergehende Einstellung der Funktion Anfang des Jahres aufgrund historisch ungenauer Darstellungen. Laut Google wird die frühe Zugriffsvariante dieser Funktion in den nächsten Tagen für Gemini Advanced-, Business- und Enterprise-Nutzer verfügbar sein, wobei derzeit nur Englisch unterstützt wird.
Dieses Upgrade wird von Googles neuestem KI-Text-zu-Bild-Generator Imagen3 unterstützt. Imagen3 wurde Anfang des Monats über die AI Test Kitchen still und heimlich eingeführt und wird nun in allen Sprachversionen von Gemini eingesetzt. Das verbesserte Tool kann mit nur „einigen Worten“ Beschreibung vielfältige Inhalte generieren, von fotorealistischen Landschaften bis hin zu strukturierten Ölgemälden.
Dave Citron, Senior Director of Product Management bei Google Gemini, sagte, dass das neue Imagen3-Modell über integrierte Sicherheitsmaßnahmen verfüge und „im Vergleich zu anderen verfügbaren Bildgenerierungsmodellen eine bessere Leistung biete“. Um die früheren Probleme mit historischen Ungenauigkeiten zu vermeiden, wurde das Modell optimiert, um sicherzustellen, dass die generierten Bilder genauer und angemessener sind.
Es ist wichtig zu beachten, dass sich diese Funktion von Gemini von der neu eingeführten Remagine-Funktion von Google unterscheidet. Letztere dient speziell dazu, KI-Elemente in Fotos zu integrieren, die mit der Pixel 9-Telefonreihe aufgenommen wurden.
Um die Sicherheit der Inhalte weiter zu gewährleisten, ist es Nutzern von Gemini nicht gestattet, realistische Bilder von Persönlichkeiten des öffentlichen Lebens, Inhalte mit Minderjährigen oder Szenen mit Blut, Gewalt und Sex zu erstellen. Citron räumte ein: „Natürlich ist nicht jedes von Gemini erstellte Bild perfekt, aber wir werden weiterhin das Feedback der frühen Gemini Advanced-Nutzer berücksichtigen und uns kontinuierlich verbessern.“
Google plant, die Möglichkeit zur KI-generierten Personenbilderstellung in Zukunft auf mehr Nutzer und Sprachversionen auszuweiten, um die Bedürfnisse der weltweiten Nutzer zu erfüllen. Diese Maßnahme zeigt nicht nur den Fortschritt von Google in der KI-Bildgenerierungstechnologie, sondern spiegelt auch das Engagement des Unternehmens wider, die Herausforderungen im Bereich der technischen Ethik und Sicherheit zu bewältigen.