サンフランシスコに本社を置くAIスタートアップ企業Cosineは、ソフトウェア開発者を支援するために設計された新しいAIモデル「Genie」を発表しました。Cosineによると、Genieはベンチマークテストで競合他社を大きく上回り、卓越した能力を示しました。

CosineはOpenAIと協力し、高品質なデータを使用してGPT-4oの変種をトレーニングし、注目すべきベンチマークテストの結果を得ました。同社は、Genieの成功の鍵は「コーディングにおける人間の推論」能力にあると述べており、この能力はソフトウェア開発分野のみに限定されない可能性があります。

QQ截图20240819092111.png

GenieがSWE分野でトップに立つ

Cosineの共同創設者兼CEOであるAlistair Pullen氏は、GenieがSWE-Benchテストで30%のスコアを獲得したと明らかにしました。これは、AIモデルがこの分野でこれまでに達成した最高スコアです。このスコアは、アマゾンのモデル(19%)やCognitionのDevin(SWE-Benchの一部のテストで13.8%)などのコーディングに特化した他の言語モデルを上回っています。

Genieのアーキテクチャは、人間の開発者の認知プロセスを模倣するように設計されており、バグの修正、新機能の開発、コードのリファクタリング、さまざまなプログラミングタスクの実行を自律的または協調的に実行できます。

合成データによる自己改善

Genieの開発プロセスでは、独自の処理を使用して、数十億個の高品質なデータで非公開のGPT-40変種をトレーニングおよび微調整しました。Cosineは経験豊富な開発者の協力を得て、ほぼ1年間かけてこれらのデータを整理しました。データセットには、JavaScriptとPythonが21%、TypeScriptとTSXが14%、その他の言語(Java、C++、Rubyなど)が3%含まれています。

Genieの卓越したパフォーマンスは、部分的に自己改善トレーニングによるものです。当初、このモデルは主に完璧で効率的なコードから学習していましたが、自身のエラーの処理に苦労していました。Cosineは合成データを使用してこの問題を解決しました。Genieが最初に提案したソリューションが正しくない場合、正しい結果でどのように改善できるかを示すことでモデルを学習させました。各反復ごとに、Genieのソリューションは徐々に改善され、必要な修正回数も減少しました。

QQ截图20240819092121.png

技術的制限の克服

Pullen氏は、2022年初頭に、大規模言語モデルが人間のソフトウェア開発を支援する可能性に着目しました。しかし、当時の技術では、Genieのビジョンを実現するレベルには達していませんでした。コンテキストウィンドウのトークン容量は通常4000トークンに制限されており、大きなボトルネックとなっていました。現在、Gemini1.5Proなどのモデルは、一度のプロンプトで最大200万トークンを処理できます。CosineはGenieの具体的なトークン容量を明らかにしていませんが、この技術の進歩は、Genieの成功の堅実な基盤となっています。