Gemini AI、画像処理における新たな飛躍：リアルタイム動画と静止画の同時分析

AIbase基地

公開日AIニュース · 1 分で読めます · Jan 15, 2025

246

グーグルのGemini AIは最近、注目すべき技術的ブレークスルーを達成しました。複数の視覚ストリームを同時に処理できるようになったのです。これはAI分野において前例のない成果です。この機能は、グーグルの主流プラットフォームではなく、「AnyChat」という実験的なアプリを通じて公開されました。

Gemini AIのこの新しい能力により、リアルタイムでビデオを視聴するだけでなく、静止画像を同時に分析することも可能になり、これまでAIが単一の視覚入力しか処理できなかったという制限を打破しました。Gradioの機械学習責任者であるAhsen Khaliq氏はインタビューで、「AIと会話しながら、リアルタイムのビデオや共有したい画像を処理させることができます」と述べています。

AnyChatは、Gemini AIの先進的なニューラルネットワークアーキテクチャのおかげで、このマルチストリーム処理能力を実現しました。この能力はGeminiのAPIには既に存在しますが、グーグルの公式アプリでは一般ユーザー向けにはまだ公開されていません。ChatGPTを含む多くのAIプラットフォームは現在、単一のストリーム入力しか処理できず、画像をアップロードするとリアルタイムビデオストリームが無効になります。

この技術の潜在的な用途は非常に広範囲に及びます。生徒は数学の問題をリアルタイムで提示し、教科書をGeminiに示して段階的な指導を受けることができます。アーティストは制作中の作品と参考画像を共有することで、構図や技法に関するリアルタイムのフィードバックを得ることができます。

AnyChatの技術的ブレークスルーは偶然ではありません。開発チームはGeminiの技術アーキテクチャと緊密に協力し、その能力を成功裏に拡張しました。これらの特別な権限により、AnyChatは会話の一貫性を損なうことなく、複数の視覚入力を同時に追跡および分析できます。開発者は簡単なコードでこの能力を複製し、ビデオストリームと画像アップロードをサポートするカスタムプラットフォームを作成できます。

AnyChatはまだ実験段階ですが、マルチストリームAI視覚処理の現実的な可能性を示しました。医療、エンジニアリング、教育など、あらゆる分野で、Geminiのこの新しい能力は破壊的な変化をもたらすでしょう。

AnyChatプロジェクト:AnyChathttps://huggingface.co/spaces/akhaliq/anychat

要点：
🌟 Gemini AIはリアルタイムビデオと静止画像の同時処理を実現し、従来の制限を打破しました。
🎨 AnyChatプラットフォームは、教育、芸術などにおけるAIの広範な応用可能性を示しました。
🚀 開発者は、Geminiの技術を利用して独自の視覚AIアプリケーションを簡単に構築できます。

アップルがAI協力の地図を拡大:GeminiがApple Intelligenceに加わる可能性

海外メディアの報道によると、アップルはグーグルのGemini AIモデルを自社のApple Intelligenceシステムに統合する計画を進めている可能性があります。このニュースは、ファームウェアアナリストのアーロン・ペリスがiOS18.4の最初のベータ版のコードを調査している中で発見したもので、バックエンドコードにグーグルをサードパーティモデルオプションとして追加する関連の引用が新たに見つかりました。この発見は、アップルの以前の戦略的配置と呼応しています。9to5Macによると、アップルのソフトウェアエンジニアリングのシニアバイスプレジデントであるクレイグ・フェデリギが言及しました。

Google Geminiが「グローバルメモリ」機能を搭載、AIが過去の会話を記憶

Googleは先日、Gemini AIに「グローバルメモリ」機能を追加したことを発表しました。この新機能により、AIはユーザーとの過去の会話をすべて記憶し、よりパーソナライズされた、きめ細やかなサービスを提供することを目指しています。公式の説明によると、ユーザーはAIとのやり取りで過去の会話記録をわざわざ確認する必要がなくなり、AIが自然に前回の会話の流れを汲んで、よりスムーズなコミュニケーションが可能になります。この機能を利用するには、Gemini Advancedサービスへの加入が必要です。現在…

Gemini AIアシスタント、ネイティブ広告掲載の可能性、Google CEOが収益化計画を示唆

GoogleのGemini AIアシスタントは現在広告を掲載していませんが、将来的に広告が導入される可能性があります。Alphabetの投資家向け電話会議で、Sundar Pichai CEOは、Geminiにおける今後の広告掲載方法について「非常に良いアイデアがある」と述べました。現在、ユーザーは無料または有料のサブスクリプションモデルでGeminiを利用できますが、広告が製品の一部になる可能性があります。Pichai氏は、ウェルズファーゴ証券のアナリストからのGに関する質問に答える中で…

グーグルCEOピチャイ氏、Geminiは市場最強と主張、5億ユーザー獲得目指す

最近の報道によると、グーグルCEOのサンダー・ピチャイ氏は、同社が開発したGemini AI技術に強い自信を示している。同氏は、Geminiの能力は市場の主要な競合他社を凌駕し、「市場最強」のAI技術になったと主張している。しかし、消費者の注目を集めるには、グーグルはまだ多くの努力が必要だと述べている。ピチャイ氏は最近、従業員に対して、2025年末までにGeminiのチャットボットで5億ユーザーを獲得するという目標を明らかにした。