Googleは最近、Android StudioのGeminiアシスタントがマルチモーダル入力に対応したと発表しました。開発者は、アプリケーション開発過程で視覚的な支援を得るために、プロンプトに画像を直接添付できるようになりました。

QQ20250314-144401.png

このマルチモーダル機能は、当初I/O 2024カンファレンスで発表されました。アップグレードされたGeminiは、「シンプルなワイヤーフレームを理解し、使用可能なJetpack Composeコードに変換する」ことができます。Android Studio NarwalのCanaryバージョンでは、「画像ファイルを追加」するオプション(JPEGまたはPNG形式をサポート)がAsk Geminiフィールドに追加されました。Googleは、最適な結果を得るために、「色のコントラストが強い」画像を使用し、「明確なプロンプト」を提供することを推奨しています。

開発者は、シンプルなワイヤーフレームから高忠実度のモデルまで、あらゆる種類のスクリーンショットやユーザーインターフェースをアップロードし、期待する機能を指定できます。たとえば、電卓のデザイン例では、「インタラクションと計算が期待通りに動作するように」要求できます。

QQ20250314-144410.png

視覚的なデザインを機能的なUIコードに変換するための代表的なプロンプトには、以下のようなものがあります。1.「提供されたこの画像に対して、この画像に可能な限り近い画面を作成するAndroid Jetpack Composeコードを作成してください。インポート、Material3の使用、コードの記述を含めてください。」2.「提供されたこの画像に対して、この画像に可能な限り近い画面を作成するAndroid Jetpack Composeコードを作成してください。色については自由に発想してください。インタラクションと計算が期待通りに動作するようにしてください。インポート、Material3の使用、コードの記述を含めてください。」

QQ20250314-144418.png

Googleは、Geminiを「初期のデザインフレームワーク」を提供するツールとして位置付けています。生成されたコードは、通常、さらに編集や調整が必要です。一般的な改善には、ドローアブルオブジェクトとアイコンの正しいインポートの確認が含まれます。Googleは、生成されたコードを効率的な出発点として扱い、UI開発ワークフローを加速させることを推奨しています。

さらに、Geminiの視覚分析機能は、エラーの特定と解決にも使用できます。開発者は「問題のあるUIのスクリーンショットをアップロードすると、Geminiはその画像を分析し、潜在的な解決策を提案します」。より正確な支援を得るために、関連するコードスニペットを添付することもできます。

Android StudioのGeminiは、アーキテクチャ図をアップロードして説明やドキュメントを取得することもサポートしており、これは以前I/Oカンファレンスで発表されたGemini Astraグラスの機能に似ています。