AIスタートアップ企業Cognitionが、驚異的な性能を持つ新しいAIプログラマー「Genie」を発表しました。DevinやGPT-4を凌駕し、世界最強のAIプログラミングアシスタントとなりました。

image.png

権威あるテストプラットフォームSWE-Benchにおいて、Genieは30.08%という高得点を記録。Devinの13.8%、Swe-agent+GPT-4の12.47%を大きく上回りました。

image.png

Genieの驚異的な能力、その秘密は何でしょうか?2022年12月、Genieの共同創設者であるAlistair Pullen氏はロンドン大学でこのプロジェクトを発表しました。彼は、人間のように自動的にコーディング、デバッグ、最適化を行うAIプログラムの作成を目指していました。1年以上の開発を経て、Genieはついにテスト段階に入り、250万ドルのシードラウンド資金調達に成功しました。

Alistair氏によると、Genieの成功は、そのトレーニングデータと方法に密接に関連しているとのことです。従来の大規模モデルの微調整とは異なり、Genieは人間のプログラマーの推論プロセスを含む特殊なデータセットを使用しています。これらのデータには、知識の段階的な発見とケースベースの意思決定プロセスが含まれており、Genieは複雑な問題に直面した場合でも、人間のエンジニアのような判断力を発揮することができます。

さらに、Genieは独自の「自己改善メカニズム」を採用しています。当初、Genieは高品質のデータでトレーニングされ、「完璧な」状態に達しましたが、このプロセスでは、Genie自身の誤った判断と改善が不十分でした。この問題を克服するために、開発者はGenieによって生成された合成データを使用して、トレーニング内容をさらに充実させました。これは、母親が子供に歩行を教える際に、転ぶたびに正しい指導を与えるようなものです。

image.png

何度も繰り返されるトレーニングを経て、Genieの能力は大幅に向上し、未経験の問題に対しても創造的な解決策を示すことができるようになりました。機能的には、Genieは機能開発、バグ修正、コードリファクタリング、コードテストなど、JavaScript、Python、Javaなど数十種類のプログラミング言語を網羅した様々な開発タスクに対応しています。

現在、Genieはトライアル申請を受け付けており、公式サイトで登録することで、今後数週間以内にテスト権限が発行される予定です。

公式ブログ:https://cosine.sh/blog/state-of-the-art

体験アドレス:https://cosine.sh/register

重要なポイント:

🌟 GenieはSWE-Benchテストで30.08%の高得点を獲得し、世界最強のAIプログラマーとなりました。

🚀 特殊なデータセットと自己改善メカニズムを採用することで、複雑なコーディングにおいて優れた性能を発揮します。

📝 現在、トライアル申請を受け付けており、今後さらに多くの驚きの機能が追加される予定です!