最近、OpenAIはひっそりと「ストロベリー」計画のベールを脱ぎました。以前はQ*と呼ばれていたこのプロジェクトは、現在ストロベリーとして登場し、AIが事前にタスクを計画し、自主的にインターネットで情報を収集し、さらには詳細な調査を行うことができるようになるといわれています。
テクノロジー界の大物、イーロン・マスク氏もこの件に言及し、「AIの終焉はペーパークリップの脅威だとばかり思っていたが、どうやら果てしないストロベリー畑になるようだ」と皮肉交じりにコメントしています。
ストロベリー計画には多くの関心が寄せられていますが、OpenAIはその詳細を明らかにしていません。このプロジェクトの開発過程は社内でも極秘事項であり、公開時期すら謎に包まれています。
最近の内部会議で、OpenAIはストロベリー計画のデモ版を公開し、その推論能力は人間に匹敵するほど高いことを示しました。これは最近発表されたAGIロードマップとも一致しており、OpenAIがさらに大きな動きを計画しているのではないかと推測されています。
ストロベリーモデルの設計理念は、AIが問い合わせに対する回答を生成するだけでなく、事前に計画を立て、自律的かつ確実にインターネットを閲覧し、「深層調査」を行うことです。現在、このような能力はAI分野では前例がありません。
関係者によると、OpenAIのストロベリー計画は、スタンフォード大学が開発した「自己指導推論者」(STaR)という手法に似ているとのことです。STaRは、反復的にトレーニングデータを作成することで、自己改善を実現します。
論文アドレス:https://arxiv.org/pdf/2203.14465
現在、AIに推論プロセスを生成させる方法は、コストが高いか、正確性が犠牲になるかのどちらかです。しかし、STaR技術は、少量の推論例と大量の推論のないデータを使用して反復的にAIを自己改善させます。
STaR技術のワークフローは以下のとおりです。まず、AIは多くの質問に答え、推論プロセスを生成します。答えが間違っていた場合、正しい答えを知った上で推論を再生成します。次に、最終的に正しい答えに到達したすべての推論を微調整し、このプロセスを繰り返します。
OpenAIは、ストロベリーの革新により、AIモデルの推論能力が大幅に向上すると期待しています。これには、AIモデルが大量のデータで事前トレーニングされた後、パフォーマンスを最適化するために調整するという特殊な処理方法が含まれます。
OpenAIはまた、ストロベリーが長時間タスク(LHT)を実行することを期待しており、これにはモデルが事前に計画を立て、一連のアクションを実行する必要があります。この目標を達成するために、「深層調査」データセットを作成および評価しています。
ストロベリー計画の進展に伴い、OpenAIはAGIの目標達成に近づいています。ストロベリーの推論能力が本当に人間に匹敵するレベルに達すれば、AIの未来は計り知れません。