Anthropic社は、Claude 3.5シリーズのモデルに大幅なアップグレードを発表しました。新しいClaude 3.5 SonnetとClaude 3.5 Haikuが含まれています。アップグレード版は、人工知能があなたの個人用パソコンを完全に管理できると謳っており、キーボードやマウスの操作をシミュレートすることで、パソコンにインストールされているあらゆるアプリケーションを使用するなど、様々な基本的なタスクを実行できます。

image.png

コーディング能力が大幅に向上し、OpenAI o1-previewモデルを凌駕

新しいClaude 3.5 Sonnetはあらゆる面で大幅な改善が見られ、特にコーディング能力において顕著です。SWE-bench Verifiedでのスコアは33.4%から49.0%に向上し、OpenAIのo1-previewモデルを含む、公開されているすべてのモデルを上回りました。

さらに、TAU-benchにおけるパフォーマンスも向上し、特に小売と航空業界で顕著な改善が見られます。これらはすべて、以前の製品と同じ価格と速度を維持したまま実現されています。

image.png

顧客からのフィードバックによると、アップグレードされたClaude 3.5 SonnetはAIコーディングにおいて質的な飛躍を遂げました。例えば、GitLabはDevSecOpsタスクにこのモデルをテストし、推論能力が明らかに向上し、遅延が増加していないことを発見しました。

Claude 3.5 Haikuは、Claudeの次世代で最速のモデルであり、同じコストと速度でClaude 3 Opusを上回り、複数のインテリジェンスベンチマークテストで優れた結果を示し、特にコーディングタスクにおいて顕著です。Claude 3.5 Haikuの低遅延とより正確な指示追従能力により、ユーザーインターフェース製品やパーソナライズされたエクスペリエンスの生成に非常に適しています。

人間のようにパソコンを操作する

新しく導入されたパソコン使用機能は全く新しい試みです。公式発表によると、これはClaudeのために特定のツールを開発したのではなく、一般的なコンピュータスキルをClaudeに教え、様々な標準的なツールやソフトウェアプログラムを使用できるようにしたとのことです。開発者はこの能力を利用して、繰り返し作業の自動化、ソフトウェアの構築とテスト、そしてオープンな研究などを行うことができます。

もちろん、現在のClaudeのパソコン使用能力はまだ向上させる余地があります。スクロールやドラッグなどの簡単な操作は、現在Claudeにとってまだ課題となっています。安全性を確保するために、パソコンの使用によって潜在的な危険が生じていないかを識別できる新しい分類器も開発されました。

Anthropicの最高科学責任者であるJared Kaplan氏はインタビューで、「私たちは、人工知能が個人が使用するすべてのツールを利用してタスクを完了できる新しい時代に入ろうとしています」と述べています。このアップデートは、Anthropicが商用AIモデルを従来のチャットフレームワークから包括的な「AIエージェント」へと拡大する上で重要な一歩を踏み出したことを示しています。

デモでは、Claudeに友人との金門橋の日の出鑑賞旅行の計画を依頼しました。AIはウェブサイトを開き、Googleで適切な展望台を探し、旅程をカレンダーアプリに追加しました。このパフォーマンスは印象的ですが、『Wired』誌は、目的地への行き方など、追加情報が提供されなかったと指摘しています。

さらに、別のデモでは、Claudeに簡単なウェブサイトの構築を依頼したところ、MicrosoftのVisual Studio Codeを使用してウェブサイトを作成し、ローカルサーバーを開いてテストすることに成功しました。ただし、この過程で小さなエラーが発生しましたが、指示に従ってコードを修正しました。

image.png

Claude 3.5 Sonnetは、顧客関係管理システム(CRM)から必要な情報を取得し、サプライヤー申請書を自主的に作成することで、複数のソフトウェアプラットフォームで複数ステップのタスクを実行する能力を示しました。

アップグレードされたClaude 3.5 Sonnetは、現在すべてのユーザーが利用できます。本日から、開発者はAnthropic API、Amazon Bedrock、Google CloudのVertex AIでコンピュータテスト版を使用して構築できます。新しいClaude 3.5 Haikuは今月末にリリースされる予定です。

公式ブログ:https://www.anthropic.com/news/3-5-models-and-computer-use

要点:

🌟 Claude 3.5 SonnetとHaikuモデルが大幅にアップグレードされ、コーディング能力が大幅に向上しました。

💻 新しく導入されたパソコン使用機能により、Claudeは人間のようにコンピュータを操作できるようになり、より多くの可能性が開かれます。

🔒 AIアシスタントの使用には安全上のリスクが伴います。Anthropicは、段階的な監視と改善を通じて安全性を確保することに重点を置いています。