信じられない！この簡単な指示を繰り返すだけでAIコード生成速度が100倍に！

AIbase基地

公開日AIニュース · 1 分で読めます · Jan 9, 2025

262

最近、BuzzFeedの上級データサイエンティストであるマックス・ウルフ氏は、AIに繰り返しコードの改善を依頼することで何が起きるかを検証する実験を行いました。この実験では、Claude3.5言語モデルを使用し、古典的なプログラミング課題に挑戦しました。それは、100万個の乱数の中から、数字の合計が30になるものの最大値と最小値の差を求めるPythonコードを作成するというものです。

コードインターネット (1)

画像出典：AI生成画像、画像ライセンス提供元Midjourney

初期バージョンでは、Claudeが生成したコードの実行時間は657ミリ秒でした。しかし、ウルフ氏が「より良いコードを書いてください（write better code）」という簡単な指示を繰り返し入力するにつれて、最終的に生成されたコードの実行時間はわずか6ミリ秒に短縮され、性能が何と100倍も向上しました。この結果は驚くべきものであり、AIが「より良いコード」を定義する過程で、予想外の変化も見られました。

4回目の「より良いコードを書いてください」という要求時、Claudeは予想外にもコードをエンタープライズアプリケーションのような構造に変え、典型的なエンタープライズ機能を追加しました。ウルフ氏はこれを要求していませんでしたが、これはAIが「より良いコード」を「エンタープライズレベルのソフトウェア」と関連付けている可能性を示唆しており、そのトレーニング過程で吸収した知識を反映していると考えられます。

開発者のサイモン・ウィリソン氏は、この反復的な改善現象を分析し、言語モデルは毎回の新しい要求でコードを全く新しい視点から見ていると結論付けています。各要求には以前の会話のコンテキストが含まれていますが、Claudeはまるで初めてそのコードを見るかのように分析するため、継続的な改善が可能になるのです。

しかし、ウルフ氏はより具体的な要求を試みた結果、より迅速に良い結果が得られる一方で、人間が修正する必要がある微妙なエラーがコードに残ることを発見しました。そのため、彼は正確なプロンプトエンジニアリングが依然として非常に重要であると強調しています。単純な後続の質問でもコードの品質は向上しますが、的を絞ったプロンプトエンジニアリングは著しい性能向上をもたらす一方、リスクも増加します。

注目すべき点として、この実験では、Claudeは重複の削除や数字の事前ソートなど、人間の開発者であれば当然行う最適化手順をスキップしました。さらに、質問方法の微妙な変化もClaudeの出力を大きく左右します。

これらの性能向上は印象的ですが、ウルフ氏は、ソリューションの検証とトラブルシューティングにおいて、人間の開発者が依然として不可欠であると警告しています。AI生成コードはそのまま使用できませんが、創造性とツールの提案におけるAIの可能性に注目すべきだと述べています。

要点：

🌟 AIによる繰り返し指示でコード性能が向上。実行時間は657ミリ秒から6ミリ秒に短縮されました。

💡 AIがコードにエンタープライズ機能を自動追加。AI独自の「より良いコード」への理解を示しています。

🛠️ プロンプトエンジニアリングは依然として重要。正確な要求は結果生成を加速しますが、人間の開発者による検証と修正が必要です。

AI実験 Claude3.5 BuzzFeed Pythonコード

この記事はAIbaseデイリーからのものです

【AIデイリー】へようこそ！ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。

—— AIbase デイリーグループによって作成

OpenAIの最新ベンチマーク：AIのプログラミング能力は人間の4分の1、限界も明らかに

OpenAIは先日、AIのプログラミング能力を評価する重要なレポートを発表しました。100万ドル相当の実開発プロジェクトを通じて、AIがソフトウェア開発分野でどのような現状にあるのかを明らかにしています。SWE-Lancerと呼ばれるこのベンチマークテストは、Upworkから集めた1400件の実プロジェクトを網羅し、AIの直接開発とプロジェクト管理の2つの分野におけるパフォーマンスを包括的に評価しました。テストの結果、最高性能を達成したAIモデルであるClaude3.5Sonnetは、コーディングタスクでの成功率が26.2％、プロジェクト管理決…

Feb 20, 2025

1.6k

Anthropicのセキュリティ対策、AIモデルの汎用脱獄テストで突破口が露呈

わずか6日間で、参加者はAnthropicの人工知能（AI）モデルClaude3.5のすべてのセキュリティ対策を回避することに成功しました。この突破は、AIセキュリティ対策分野に新たな議論をもたらしました。元OpenAIアラインメントチームメンバーで、現在はAnthropicに所属するJan Leike氏はXプラットフォームで、参加者がすべての8つのセキュリティレベルを突破したと発表しました。この共同作業には、約3,700時間のテストと参加者からの300,000件のメッセージが含まれていました。挑戦者たちは…

Feb 12, 2025

1.4k

DeepSeek-R1とClaude 3.5 Sonnetを組み合わせた驚異の結果！

DeepClaudeは、DeepSeek-R1の推論プロセスをClaude 3.5 Sonnetで使用するための、デュアルエンジンオープンソースAIプロジェクトです。両モデルの長所を活かし、より高品質なコンテンツを出力することを目指しています。DeepClaudeの概要：DeepClaudeはオープンソースプロジェクトであり、DeepSeek-R1の推論能力とClaude 3.5 Sonnetの強力な機能を組み合わせたものです。特定の…

Feb 11, 2025

2.8k

Anthropic、95%のモデル脱獄試行を阻止する「コンスティチューション・クラシファイア」を発表

AI企業Anthropicは最近、「コンスティチューション・クラシファイア」と呼ばれる新しいセキュリティ手法を発表しました。これは、言語モデルが悪意のある操作から守ることを目的としています。この技術は、「汎用脱獄」つまり、AIモデルが有害なコンテンツを生成するのを防ぐためのあらゆるセキュリティ対策を体系的に回避しようとする入力方法に特化しています。この技術の有効性を検証するために、Anthropicは大規模なテストを実施しました。同社は183人の参加者を募り、2ヶ月間にわたって防御システムを突破しようとしました。参加者には、入力によって...

Feb 5, 2025

1.5k

バイトダンス、Doubao大規模言語モデル1.5Proを発表、GPT-4oとClaude3.5Sonnetを性能で上回る

バイトダンスは、最新のDoubao大規模言語モデル1.5Pro（Doubao-1.5-pro）を発表しました。この新しいモデルは、複数の分野で優れた総合的な能力を発揮し、業界をリードするGPT-4oやClaude3.5Sonnetを上回る性能を達成しました。このモデルの発表は、バイトダンスの人工知能分野における重要な一歩を示しています。Doubao 1.5Proは、新しいスパースMoE（混合専門家）アーキテクチャを採用しており、少ない活性化パラメーターで事前学習が行われています。この設計により、

Jan 22, 2025

29.7k

AIプログラミング能力の進化！大規模言語モデルを繰り返し「洗脳」することでコードの質を向上

近年、人工知能（AI）のプログラミング能力は目覚ましい発展を遂げていますが、完璧には程遠いです。最近、BuzzFeedのベテランデータサイエンティストであるMax Woolf氏が、大規模言語モデル（LLM）に対して繰り返し「より良いコードを書く」という指示を与える実験を行い、AIが実際に質の高いコードを生成できることを発見しました。この発見は大きな注目を集め、業界を代表するAI科学者たちもその重要性を強調し、反復とプロンプトエンジニアリングの重要性を指摘しています。Woolf氏の実験では、

Jan 13, 2025

1.9k

Cursorを超える？ClineがVSCodeプログラミング体験を刷新：Claude 3.5 Sonnet、DeepSeek V3も自由自在！

AIプログラミングの時代が到来したと言える現代において、AIアシストによるプログラミング効率の向上は開発者にとって非常に重要です。革新的なAIプログラミングツールであるClineは、開発者にさらにスマートで効率的なプログラミング体験を提供するために誕生しました。高度なAI技術を統合し、様々なモデルと連携することで、コード生成、エラー修正、ファイル操作など強力な機能を備え、開発者の強力なアシスタントとなり、プログラミング作業の効率化に貢献するでしょう。Clineの概要Cli

Dec 31, 2024

28.5k

国産大規模言語モデルの突破！DeepSeek V3がClaude 3.5 Sonnetに挑む！実測記録

最近、国産大規模言語モデルDeepSeek V3がAI競技場での優れたパフォーマンスで業界の注目を集めています。トップ10入りを果たした唯一のオープンソースモデルとして、o1-miniを凌駕し、プログラミングや数学など複数の分野でClaude3.5Sonnetをも上回る結果を残しました。その実力を検証するため、様々な実測比較が行われています。基礎的な理解力テストでは、両モデルがそれぞれ異なる特性を示しました。例えば、中国語のなぞなぞ「小明のママには子供が3人います」という問題に対して、DeepSeek V3は見事な解答を示しました。

Dec 31, 2024

8.3k

新研究：AnthropicのClaude AI、協調性においてOpenAIやGoogleのモデルを上回る

最近の研究論文で、様々なAI言語モデルの協調性における顕著な違いが明らかになりました。研究チームは、古典的な「寄付ゲーム」を用いて、AIエージェントが複数世代にわたる協調においてどのように資源を共有するかをテストしました。その結果、AnthropicのClaude3.5 Sonnetが優れた性能を示し、安定した協調モデルを構築し、より多くの資源を獲得することが分かりました。一方、GoogleのGemini1.5 FlashとOpenAIのGPT-4は…

Dec 23, 2024

1.8k

Anthropic、OpenAIの支配に挑戦し10倍の成長を遂げる

AI技術の急速な発展に伴い、Anthropicは急速に台頭し、AIプログラミング市場におけるOpenAIの支配的地位に挑戦しています。最近、Anthropicが発表したAIモデルClaude3.5Sonnetは、コード生成において強力な能力を示しました。The Informationの報道によると、Anthropicの「AIプログラミング」分野における収益は過去3ヶ月間で10倍に増加しており、市場のダイナミクスに変化をもたらしています。

Dec 13, 2024

3.2k

AIニュース

AIデイリー

AIタイムライン

最新事例

画像コレクション

ビデオコレクション

オーディオコレクション

コンテンツコレクション

最新チュートリアル

AIプロダクトランキング

AIトラフィック成長ランキング

AIトラフィック減少ランキング

AI週間ランキング

アメリカ合衆国

中国

インド

ブラジル

画像生成

パーソナルアシスタント

キャラクター生成

ビデオ生成

AIプロジェクトランキング

AIプロジェクト成長ランキング

AI開発者ランキング

AI組織ランキング

Deepseek

TTS

LLM

ChatGPT

概要