Google acaba de anunciar que el asistente Gemini en Android Studio ha sido actualizado para admitir la entrada multimodal. Los desarrolladores ahora pueden adjuntar imágenes a las indicaciones para obtener asistencia visual durante el proceso de desarrollo de aplicaciones.
Esta función multimodal, presentada inicialmente en la conferencia I/O 2024, permite al Gemini actualizado "comprender bocetos simples y convertirlos en código Jetpack Compose utilizable". En la versión Canary de Android Studio Narwal, el campo "Ask Gemini" incluye una nueva opción "Adjuntar archivo de imagen" (se admiten formatos JPEG o PNG). Google recomienda usar imágenes con "fuerte contraste de color" y proporcionar "indicaciones claras" para obtener los mejores resultados.
Los desarrolladores pueden cargar capturas de pantalla y interfaces de usuario de todo tipo, desde bocetos simples hasta modelos de alta fidelidad, y especificar la funcionalidad deseada. Por ejemplo, en un ejemplo de diseño de calculadora, se puede solicitar "hacer que la interacción y los cálculos funcionen como se espera".
Las indicaciones típicas para convertir diseños visuales en código UI funcional incluyen: 1. "Para esta imagen proporcionada, escribe código Android Jetpack Compose para crear una pantalla lo más parecida posible a esta imagen. Asegúrate de incluir las importaciones, usar Material3 y documentar el código." 2. "Para esta imagen proporcionada, escribe código Android Jetpack Compose para crear una pantalla lo más parecida posible a esta imagen, siendo creativo con los colores. Haz que la interacción y los cálculos funcionen como se espera. Asegúrate de incluir las importaciones, usar Material3 y documentar el código."
Google posiciona a Gemini como una herramienta que proporciona un "marco de diseño inicial"; el código generado generalmente requiere edición y ajuste adicionales. Las mejoras comunes incluyen asegurar la importación correcta de objetos dibujables e iconos. Google recomienda considerar el código generado como un punto de partida eficiente para acelerar el flujo de trabajo de desarrollo de la interfaz de usuario.
Además, la función de análisis visual de Gemini se puede usar para identificar y solucionar errores. Los desarrolladores pueden "cargar una captura de pantalla de la interfaz de usuario problemática, y Gemini analizará la imagen y propondrá posibles soluciones". Los desarrolladores también pueden adjuntar fragmentos de código relevantes para obtener ayuda más precisa.
Android Studio Gemini también admite la carga de diagramas de arquitectura para obtener explicaciones o documentación, similar a la función de las gafas Gemini Astra que se mostró en la conferencia I/O.