Googleは先日、Geminiシリーズに新たなGemini 2.5Flashを発表しました。現在プレビュー段階にあるこのバージョンは、開発者により強力な推論能力を提供することを目的としています。「思考」プロセスを活用することで、開発者は必要に応じてコストと遅延を柔軟に制御し、より費用対効果の高いソリューションを構築できます。
前バージョンである2.0Flashと比較して、Gemini 2.5Flashのアップグレードは主に推論能力に重点が置かれています。これはGoogleが初めて発表した完全な混合推論モデルであり、開発者は思考機能の有効化を選択できます。思考予算を設定することで、開発者は品質、コスト、遅延のバランスを理想的に取ることができます。思考機能をオフにしても、2.5Flashは2.0Flashの高速な応答速度を維持し、全体的なパフォーマンスをさらに向上させています。
この新しい思考モデルは、出力を生成する前に、一連の推論プロセスを実行できます。このプロセスにより、モデルは入力プロンプトをより適切に理解し、複雑なタスクを分解し、より正確な回答を計画できます。たとえば、複数ステップの推論が必要な複雑なタスク(数学の問題解決や研究問題の分析など)を処理する場合、思考プロセスにより、モデルはより正確で包括的な回答を導き出すことができます。LMArenaの「困難なプロンプト」テストでは、Gemini 2.5Flashは2.5Proに次ぐ優れた結果を示しました。
Gemini 2.5Flashは、思考プロセスのきめ細かい制御も可能にします。開発者はモデルに最大思考トークン数を設定して、推論の質を柔軟に調整できます。より高い予算を設定すると、モデルはより深く思考できるため、回答の質が向上します。一方、予算を0に設定すると、モデルは最低限のコストで2.0Flashのパフォーマンスを上回ることができます。
実際のアプリケーションでは、タスクの複雑さによって異なる思考が必要になります。単純な翻訳や計算タスクには少量の思考で済む場合がありますが、複雑な数学の問題やプログラミングの問題にはより多くの推論時間が必要になります。思考予算を設定することで、開発者はニーズに合った推論深度を選択し、さまざまな問題をより効率的に解決できます。
現在、開発者はGemini API、Google AI Studio、Vertex AIを使用してGemini 2.5Flashを使用できます。Googleは、思考予算パラメータを試行し、制御可能な推論能力を使用してより複雑な問題を解決する方法を探求することを推奨しています。