OpenAIの主力モデルGPT-4o(「o」は「omni」を表します)は、5月のリリース時にその音声認識能力が注目を集めました。GPT-4oモデルは、平均320ミリ秒で音声入力に応答でき、これは人間の典型的な会話における反応時間とほぼ同じです。

ChatGPT OpenAI 人工知能 (1)

OpenAIはまた、ChatGPTの音声モード機能がGPT-4oモデルの音声能力を活用し、ユーザーにシームレスな音声対話体験を提供すると発表しました。GPT-4oの音声能力について、OpenAIチームは次のように書いています。

「GPT-4oを用いて、テキスト、ビジュアル、音声の3つのモダリティをエンドツーエンドで学習した全く新しいモデルを構築しました。つまり、すべての入出力は同じニューラルネットワークによって処理されます。GPT-4oはこれらのモダリティをすべて組み合わせた最初のモデルであるため、モデルの可能性と限界を探り始めたばかりです。」

6月には、OpenAIは高度な音声モードを後日ChatGPT Plusユーザーの一部にアルファ版として提供する計画を発表しましたが、モデルの検出能力と特定のコンテンツの拒否能力を向上させる必要があったため、計画は1ヶ月延期されました。さらに、OpenAIはリアルタイムの応答を維持しながら数百万人のユーザーに拡大できるよう、インフラの準備を進めています。

現在、OpenAIのCEOであるSam AltmanはXで、音声モードのアルファ版が来週からChatGPT Plusのサブスクライバーに提供開始されることを確認しました。

image.png

現在のChatGPTの音声モードは、平均遅延が2.8秒(GPT3.5)と5.4秒(GPT-4)であるため、直感的な操作とは言えません。GPT-4oベースの、間もなく提供される高度な音声モードにより、ChatGPTのサブスクライバーは遅延のないスムーズな会話を楽しむことができます。

さらに、OpenAIは本日、待望のSearchGPTも発表しました。これは、Web検索体験に対する彼らの新たな試みです。現在、SearchGPTはプロトタイプ段階ですが、明確で関連性の高い情報源から正確な回答を迅速に提供するAI検索機能を提供します。詳細はこちらをご覧ください。

要点:

- ChatGPT Plusのサブスクライバーは来週、遅延のないスムーズな会話体験を実現する全く新しい音声モード機能を利用できるようになります。

- GPT-4oモデルは、テキスト、ビジュアル、音声の3つのモダリティを組み合わせた学習を行い、OpenAIによるさらなる可能性と限界の探求を可能にしました。

- OpenAIはまた、迅速かつ正確なAI検索機能を提供するSearchGPTを発表しました。