テクノロジー大手GoogleのAI研究部門は先日、Gemini AIモデルの最新版であるGemini 2.0 Flashを発表しました。この新しいモデルは、処理速度とマルチモーダル機能の拡張において特に性能が大幅に向上しています。

公式発表によると、世界のGeminiユーザーは、デスクトップとモバイルWebのモデルドロップダウンリストから2.0 Flashの体験版を選択することで、チャット最適化バージョンにアクセスできます。また、まもなくGeminiモバイルアプリでも提供される予定です。来年初頭には、Gemini 2.0をさらに多くのGoogle製品に展開する予定です。

image.png

Gemini 2.0 Flashの重要な進歩の一つは、処理速度の向上です。Googleによると、新しいモデルの動作速度は前世代のGemini 1.5 Proの2倍であり、様々なベンチマークテストでも優れた性能を示しています。この速度向上により、ユーザーはより効率的な処理能力と迅速なレスポンスタイムを享受できます。

image.png

さらに、Gemini 2.0 Flashは、多様なデータタイプの処理においても拡張されています。このモデルには、オーディオとビデオストリームをリアルタイムで処理できるマルチモーダルリアルタイムAPIが含まれています。これにより、開発者は動的なオーディオとビジュアル入力を利用したアプリケーションを作成できます。同時に、モデルにはネイティブな画像生成機能が統合されており、ユーザーは会話形式のテキストプロンプトで画像を作成および変更できます。

これらの主要な進歩に加えて、Gemini 2.0 Flashには他にもいくつかの機能強化が含まれています。8種類の異なる音声に対応したネイティブな多言語音声出力がサポートされ、モデルのグローバルなアクセシビリティが拡大しました。ツールとエージェントのサポートの改善により、モデルは外部ツールやシステムとより効率的に連携し、より複雑なタスクを実行できるようになりました。

ソフトウェアエンジニアリングタスクにおいて、Gemini 2.0 Flashは、コーディングスキルを評価することを目的としたSWE-bench Verifiedベンチマークテストで51.8%のスコアを獲得しました。この結果は、開発者のコード生成、デバッグ、最適化プロセスを支援する際のモデルの可能性を示しています。

Googleは、Gemini 2.0 Flashを自社の開発ツールに統合しています。新しいAI駆動型コードエージェントであるJulesは、Google Colaboratoryで開発者を支援するためにGemini 2.0 Flashを利用しています。この統合は、開発環境におけるモデルの実用的な応用を示しています。

Gemini 2.0 Flashには、責任あるAI開発に関連する機能も含まれています。109言語のサポートにより、モデルのグローバルなアクセシビリティが拡大しました。生成されたすべての画像と音声出力にはSynthIDウォーターマークが統合されており、ソースの追跡と、AI生成コンテンツに関連する潜在的な問題の解決のためのメカニズムを提供しています。

Gemini 2.0 Flashの発表は、GoogleのAIモデル開発におけるさらなる進歩を示しています。速度の向上、マルチモーダル能力の拡張、ツールとのインタラクションの改善に重点を置くことで、より汎用的で強力なAIシステムに貢献しています。

GoogleがGeminiシリーズのモデルの開発を続けるにつれて、さらなる改良と能力の拡張が予想されます。Gemini 2.0 Flashは、AI技術の継続的な進歩とその様々な分野における潜在的な応用への貢献を示しています。

公式紹介:https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#gemini-2-0-flash

要点:

🚀 Gemini 2.0 Flashの速度は前世代の2倍で、性能が大幅に向上。

🎥️ オーディオとビデオストリームのリアルタイム処理をサポートするマルチモーダルリアルタイムAPIを追加。

🌐️ ネイティブな画像生成機能を統合し、テキストプロンプトで画像の作成と変更が可能。