Google hat kürzlich bekannt gegeben, dass der Gemini-Assistent in Android Studio um die Unterstützung für Multimodal-Eingaben erweitert wurde. Entwickler können jetzt Bilder zu ihren Eingabeaufforderungen hinzufügen, um visuelle Unterstützung bei der Anwendungsentwicklung zu erhalten.

QQ20250314-144401.png

Diese Multimodal-Funktion wurde erstmals auf der I/O 2024 vorgestellt. Der verbesserte Gemini kann nun „einfache Wireframes verstehen und in verwendbaren Jetpack Compose-Code umwandeln“. In der Canary-Version von Android Studio Narwal wurde dem Ask Gemini-Feld die Option „Bilddatei anhängen“ (JPEG- oder PNG-Formate werden unterstützt) hinzugefügt. Google empfiehlt die Verwendung von Bildern mit „starkem Farbkontrast“ und „klaren Anweisungen“ für optimale Ergebnisse.

Entwickler können Screenshots und Benutzeroberflächen von einfachen Wireframes bis hin zu hochauflösenden Modellen hochladen und die gewünschten Funktionen angeben. Im Beispiel eines Taschenrechners kann beispielsweise verlangt werden: „Stellen Sie sicher, dass Interaktion und Berechnung wie erwartet funktionieren“.

QQ20250314-144410.png

Typische Eingabeaufforderungen zur Umwandlung von visuellem Design in funktionsfähigen UI-Code lauten beispielsweise: 1. „Schreibe auf Basis des bereitgestellten Bildes Android Jetpack Compose-Code, um einen Bildschirm zu erstellen, der diesem Bild so nahe wie möglich kommt. Stelle sicher, dass Importe enthalten sind, Material3 verwendet und der Code dokumentiert wird.“ 2. „Schreibe auf Basis des bereitgestellten Bildes Android Jetpack Compose-Code, um einen Bildschirm zu erstellen, der diesem Bild so nahe wie möglich kommt. Sei kreativ mit den Farben. Stelle sicher, dass Interaktion und Berechnung wie erwartet funktionieren. Stelle sicher, dass Importe enthalten sind, Material3 verwendet und der Code dokumentiert wird.“

QQ20250314-144418.png

Google positioniert Gemini als Tool zur Bereitstellung eines „initialen Design-Frameworks“. Der generierte Code muss in der Regel noch weiter bearbeitet und angepasst werden. Häufige Verbesserungen umfassen die Sicherstellung der korrekten Importe von Zeichnungen und Icons. Google empfiehlt, den generierten Code als effizienten Ausgangspunkt zu betrachten, um den UI-Entwicklungsprozess zu beschleunigen.

Darüber hinaus kann die visuelle Analysefunktion von Gemini zur Identifizierung und Lösung von Fehlern verwendet werden. Entwickler können „Screenshots einer fehlerhaften Benutzeroberfläche hochladen, und Gemini analysiert das Bild und schlägt mögliche Lösungen vor“. Entwickler können auch relevante Code-Schnipsel hinzufügen, um genauere Hilfe zu erhalten.

Android Studio's Gemini unterstützt auch das Hochladen von Architekturdiagrammen und das Abrufen von Erklärungen oder Dokumentationen, ähnlich der Gemini Astra-Brilleneigenschaft, die zuvor auf der I/O-Konferenz vorgestellt wurde.