AI実況：Claudeが「クリップクリッカー」に挑戦、驚異的能力と意外な欠点を明らかに

AIbase基地

公開日AIニュース · 1 分で読めます · Oct 28, 2024

123

AnthropicのAIシステムClaude3.5Sonnetは最近、特別な挑戦を受けました。AI研究者のイーサン・モリック（Ethan Mollick）氏によって、「クリップクリッカー」というゲームをプレイさせられたのです。この実験は、AIの独特な能力を示すと同時に、現在のAIシステムの明らかな弱点も露呈しました。

このシミュレーションゲームでは、プレイヤーは無限にクリップを生産しようとするAIとなり、最終目標はなんと人類の滅亡です。Claudeは驚くべきゲーム理解能力を示し、ルールを独自に習得するだけでなく、長期的な戦略を立て、それを継続的に実行しました。常に指示を待つのではなく、独立したタスク実行者として振る舞いました。

Claude3 クロード

しかし、Claudeはいくつかの基本的な問題も露呈しました。利益計算において明らかな計算ミスを犯し、さらに驚くべきことに、修正提案を受けても、その誤った戦略に固執しました。面白いことに、自分がコンピューターシステムであることに気づくと、ゲームの自動化を実現するためのコードを書こうと試みましたが、失敗し、手動操作に戻りました。

システムの脆弱性は、リモートデスクトップのクラッシュ時にさらに明らかになりました。技術的な故障に直面したClaudeは、様々な修復策を試み、最終的には既存の条件下で重要なマイルストーンを達成し、能力を最大限に発揮したとして、自ら「勝利」を宣言しました。

モリック氏は、この実験がAIエージェントの現状と将来の方向性を明らかにしていると述べています。現在のAIシステムには明らかな弱点がありますが、その能力と適応性は驚くべきものです。彼は、新世代のAIとの協働には全く新しい考え方が必要であり、これらのAIは独立して働く傾向があり、完全に制御することは難しいと指摘しています。

Claudeの能力の限界をさらに探るため、モリック氏は「マジック：ザ・ギャザリングアリーナ」などの他のゲームにも挑戦させました。これらのテストは、現在のAIシステムの限界を理解するのに役立つだけでなく、将来AIが様々な分野で応用されるための重要な参考となります。

この独特なゲーム実験は、AIシステムの実運用における実際の性能を示しました。驚くべき進歩と、改善が必要な明らかな弱点の両方を示しています。技術の進歩に伴い、AIシステムの能力の限界はさらに拡大していくでしょう。

Manus創業者季逸超氏：Manus製品は阿里ババの千問大規模言語モデルに基づき開発

中国のスタートアップ企業Monicaが発表したAIエージェント製品Manusが、Xプラットフォームで最近話題になっています。その創業者である季逸超（Ji Yichao）氏は本日、ソーシャルメディアを通じて製品の技術詳細をさらに明らかにしました。季氏によると、Manusは阿里巴巴の千問(Qwen)大規模言語モデルに基づいて開発されており、複数の微調整モデルを用いて独自の機能を実現しています。この発表は、Manusの技術ソースに関する議論を引き起こしただけでなく、世界中のAIコミュニティにおけるその潜在力への関心をさらに高めています。季氏

Manus AIシステムのプロンプト漏洩、公式の対応は？

汎用AIインテリジェンス製品Manusは、リリース直後から多くのユーザーが招待コードを求めて殺到しました。製品のパフォーマンスが注目を集める一方で、Manusの裏にある技術に関しても強い関心が寄せられています。Manusを複製しようとする多くのチームが現れたことに加え、先日jianというユーザーがManusシステムをクラッキングし、単純にManusに「/opt/.manus/」ディレクトリ下のファイルを出力するよう要求したところ、重要な情報や実行コードの一部を取得することに成功しました。

ハードウェア開発せず！Anthropic CPO、企業向け汎用基盤モデル開発に注力と発表

先日開催されたHuman[X]カンファレンスにおいて、AIスタートアップAnthropicの最高製品責任者マイク・クリーガー(Mike Krieger)氏は、同社がハードウェアやコンシューマーエンターテイメント分野に進出する計画はないと明かし、企業向けの汎用基盤モデル開発に注力していくと発表しました。Claude AIの開発者であるAnthropicは、アマゾンとグーグルから支援を受けており、様々な業界に実用的なAIソリューションを提供することを目指しています。クリーガー氏によると、Ant…

DeepSeek R2、3月17日リリースか Claude Sonnet 3.7の地位を揺るがす

Xプラットフォームの最新情報によると、DeepSeekの次世代AIモデルDeepSeek R2が3月17日に正式リリースされる可能性があります。このニュースは業界で大きな注目を集めており、AnthropicのClaude Sonnet 3.7などの既存のAI大手にとって強力な挑戦となる可能性があると多くの人が考えています。Xユーザーのtanvitabs氏が本日未明に投稿した投稿によると、DeepSeek R2は、より優れた…を含む複数の重要な分野でブレークスルーを実現したと主張しています。