SF映画『Her』のような光景が現実になりつつあります。GPT-4oの音声機能がついにグレーテストを開始し、一部のChatGPT Plusユーザーはすでにこのエキサイティングな新機能を体験しています。OpenAIのこの革新は、AIが冗談を言ったり、猫の鳴き声を真似たりするだけでなく、「第二言語コーチ」として会話練習を支援することも可能にしました。

GPT-4oの音声モードは、より自然でリアルタイムの会話体験をもたらします。ユーザーはAIを自由に中断でき、AIはユーザーの感情を感知して反応することさえできます。今年秋には、すべてのChatGPT Plusユーザーがこの機能を使用できるようになる予定です。さらに期待されるのは、ビデオと画面共有機能が近日中に導入されることで、ユーザーはChatGPTと「対面」で交流できるようになることです。

image.png

GPT-4oの出力能力も大幅に向上しました。新しいモデルの出力トークン数は4000個から64000個に急増し、一度に4本の長編映画の脚本に相当するコンテンツを取得できることを意味します。OpenAIは公式ウェブサイトで、このテスト版の新モデルgpt-4o-64k-output-alphaをひっそりと公開しました。

安全性と品質を確保するために、OpenAIは過去数ヶ月間、GPT-4oの音声機能を厳格にテストしてきました。100名以上のレッドチームメンバーと協力して45種類の言語でテストを行い、ユーザーのプライバシー保護のため、モデルが4種類のプリセット音声のみを使用するようにトレーニングしました。さらに、コンテンツのフィルタリングも不可欠であり、チームは暴力や著作権関連コンテンツの生成を阻止するための措置を講じています。

ネットユーザーによるGPT-4o音声モードの実測結果は印象的です。ほぼ遅延なく迅速に質問に答えることができるという声や、さまざまな声やアクセントを模倣するために使用しているという声、サッカーの試合実況アナウンサーとして使用したり、中国語で生き生きとした物語を語らせたりしているという声などがあります。これらの事例は、GPT-4oの音声認識と生成における強力な能力を示しています。

注目すべきは、OpenAIがビデオと画面共有機能は後日導入すると主張しているにもかかわらず、一部のネットユーザーがすでにこれらの機能を先行体験していることです。例えば、あるユーザーがChatGPTに新しいペットの猫のために用意した小さな巣を見せると、ChatGPTは「きっと快適でしょう」と評価し、猫の様子を心配そうに尋ねました。

さらに、GPT-4oの長出力機能もひっそりと登場しました。OpenAIは正式にテスターにGPT-4o Alphaバージョンを提供すると発表し、1回の要求で最大64Kトークンを出力できるようになり、これは200ページの小説に相当します。この機能の導入は、より長い出力コンテンツに対するユーザーのニーズに基づいています。

しかし、より長い出力は、より高い計算量と価格を意味します。GPT-4o Long Outputの価格は、入力トークン100万個あたり6ドル、出力トークン100万個あたり18ドルで、以前のモデルよりも高くなっています。それにもかかわらず、一部の研究者は、長出力は主にデータ変換などのユースケースに使用され、コード作成やライティングの改善などのシナリオに非常に役立つと考えています。

総じて、GPT-4oの音声機能と長出力能力は、ユーザーにより豊かで便利なインタラクション体験をもたらすことは間違いありません。技術の進歩に伴い、AIがより多くの分野で独自の価値を発揮すると確信しています。