AI分野の競争が激化する中、Googleは先日、Gemini 2.0 Flash Thinkingモデルを発表しました。このマルチモーダル推論モデルは、高速で透明性のある処理能力を備え、複雑な問題にも対応できます。GoogleのCEO、サンダー・ピチャイ氏はソーシャルメディアXで「これはこれまでで最も深いモデルです」と述べています。
開発者向けドキュメントによると、Gemini 2のFlash Thinkingは、基本バージョンのGemini 2.0 Flashモデルよりも強力な推論能力を備えています。新モデルは32,000個の入力トークン(約50~60ページのテキスト)をサポートし、出力応答は最大8,000トークンに達します。GoogleのAI Studioのサイドパネルには、このモデルは「マルチモーダル理解・推論」と「コーディング」に特に適していると記載されています。
開発者向けドキュメント: https://ai.google.dev/gemini-api/docs/thinking-mode?hl=ja
現在、モデルのトレーニングプロセス、アーキテクチャ、ライセンス、コストなどの詳細は公開されていませんが、Google AI Studioによると、現時点ではこのモデルの使用料はトークンあたりゼロです。
Gemini 2.0の顕著な特徴の1つは、ユーザーがドロップダウンメニューからモデルの段階的な推論プロセスにアクセスできることです。これは、OpenAIのo1やo1 miniなどの競合モデルにはない機能です。この透明性のある推論方法により、ユーザーはモデルが結論を導き出したプロセスを明確に理解でき、「ブラックボックス」と見なされるAIの問題を効果的に解決します。
いくつかの簡単なテストでは、Gemini 2.0は「イチゴ」という単語の中の文字「R」の数などを、1~3秒で正確に回答することができました。別のテストでは、モデルは全体の数字と小数点を段階的に分析することで、2つの小数(9.9と9.11)を体系的に比較しました。
第三者機関であるLM Arenaは、Gemini 2.0 Flash Thinkingモデルを、あらゆる大規模言語モデルの中で最高の性能を持つモデルと評価しています。
さらに、Gemini 2.0 Flash Thinkingモデルは、ネイティブの画像アップロードと分析機能も備えています。OpenAIのo1は当初テキストモデルでしたが、後に画像とファイルの分析機能が追加されました。現在、どちらもテキスト出力しか返せません。
Gemini 2.0 Flash Thinkingモデルのマルチモーダル能力は潜在的な用途を拡大しますが、開発者は、このモデルは現在、Google検索との連携をサポートしておらず、他のGoogleアプリや外部ツールとの統合もできないことに注意する必要があります。Google AI StudioとVertex AIを使用して、このモデルを試すことができます。
競争が激化するAI市場において、Gemini 2.0 Flash Thinkingモデルは、問題解決モデルの新時代を告げるものかもしれません。様々なデータ型を処理し、視覚的な推論を提供し、大規模に運用できる能力により、推論AI市場において、OpenAIのo1シリーズや他のモデルにとって重要な競合相手となっています。
要点:
🌟 Gemini 2.0 Flash Thinkingモデルは強力な推論能力を備え、32,000個の入力トークンと8,000個の出力トークンをサポートします。
💡 このモデルはドロップダウンメニューで段階的な推論を提供し、透明性を高め、「ブラックボックス」問題を解決します。
🖼️ ネイティブの画像アップロードと分析機能を備え、マルチモーダルな用途を拡大します。