OpenAIは今週木曜日、ChatGPT向けに開発された人間のような会話機能「高度音声モード」が視覚化されたことを発表しました。ChatGPT Plus、Team、またはProを購読しているユーザーは、スマートフォンカメラで物体を捉えることで、ChatGPTがほぼリアルタイムで反応するようになりました。

この視覚機能を備えた高度音声モードは、画面共有機能も備えており、デバイス画面上のコンテンツを分析できます。例えば、様々な設定メニューを解説したり、数学の問題にアドバイスしたりすることができます。

使い方は非常に簡単です。ChatGPTのチャット欄の横にある音声アイコンをクリックし、左下隅のビデオアイコンをクリックするだけでビデオを開始できます。画面を共有するには、三点メニューをクリックして「画面共有」を選択します。

機能の展開について、OpenAIは視覚機能付きの高度音声モードを今週木曜日から開始し、来週中に終了すると発表しました。ただし、すべてのユーザーがすぐに利用できるわけではありません。ChatGPT EnterpriseとEduユーザーは来年1月まで待つ必要があり、EU、スイス、アイスランド、ノルウェー、リヒテンシュタインのユーザーについては具体的なスケジュールはまだ発表されていません。

最近のCNN「60分」番組で、OpenAIの社長グレッグ・ブロックマンはアンダーソン・クーパーに高度音声モードの視覚分析能力を披露しました。クーパーが黒板に人体部位を描くと、ChatGPTはその絵を理解し、コメントすることができました。例えば、脳の位置は正確だと指摘し、脳の形は楕円形の方が良いと提案しました。

しかし、デモの過程で、この高度音声モードは幾何学の問題でいくつかの不正確さを露呈し、「幻覚」を生み出す可能性のあるリスクを示しました。

QQ20241213-090150.png

特筆すべきは、この視覚機能付きの高度音声モードは何度も延期されてきたことです。今年4月、OpenAIは「数週間以内」にリリースすると約束しましたが、その後、より多くの時間が必要であると述べました。今年秋の初めまで、この機能は一部のChatGPTユーザーにのみ公開され、当時は視覚分析機能は備わっていませんでした。

人工知能の競争が激化する中、GoogleやMetaなどの競合他社も同様の機能を開発しています。今週、Googleは一部のAndroidテストユーザーに対して、リアルタイムビデオ分析対話型AIプロジェクトであるProject Astraを公開しました。

視覚機能に加えて、OpenAIは今週木曜日に「サンタクロースモード」というホリデー機能も発表しました。ユーザーはChatGPTアプリのヒント欄の横にある雪の結晶アイコンをクリックして、サンタクロースの音声を有効にできます。