技術評価レポート：Claude 3.5 Sonnetモデルが博士レベルの性能に到達

AIbase

公開日AIニュース · 1 分で読めます · Jun 24, 2024

333

Anthropic社の最新モデルClaude 3.5 Sonnetは、最近の技術評価で注目すべき性能を示し、専門の博士レベルを上回る結果となりました。Graduate-Level Question Answering（GPQA）テストでは、67.2％というスコアを獲得。これは大規模言語モデルがこの種の評価で初めて65％を突破しただけでなく、高度な科学知識に関する質問の理解と回答において新たな高みに達したことを意味します。

GPQAは、大学院レベルの科学知識に関する質問応答能力を測定するベンチマークテストであり、複雑で高度な質問が数多く含まれており、モデルの推論能力と知識統合能力に高い要求が課せられます。この難しいテストで、一般的な博士号取得者の平均スコアは約34％、専門分野の博士号取得者の平均スコアは65％でした。特筆すべきは、GPQAで60％のスコアを獲得した言語モデルは、IQ150相当の知能レベルを持つと推定されることです。

現在、GPT-4oとGPT-4TのGPQA評価における具体的なデータはまだありませんが、現時点の情報から推測すると、Claude 3.5 Sonnetはこれらのモデルを上回る性能を示しているようです。他の関連評価（例：0-shot CoT評価）でも、Claude 3.5 SonnetはGPT-4o（53.6％）とGPT-4T（48.0％）を上回るスコアを獲得しており、言語理解と質問応答におけるその優位性をさらに証明しています。

Anthropic社のこの成果は、Claude 3.5 Sonnetの強力な能力を示しただけでなく、大規模言語モデルが高度な知識に関する質問応答タスクを処理する上での新たな基準を確立しました。技術の進歩に伴い、これらのモデルの様々な分野への応用可能性は、今後ますます広がるでしょう。

AI音楽生成モデルMusiConGen：Transformerを用いた音楽生成、リズムとコードの精密制御

MusiConGenモデルは、事前学習済みのMusicGen-melodyフレームワークを微調整したもので、様々なスタイルの音楽片段の生成に使用されます。研究チームは、コードとリズムの制御パラメータを設定することで、生成された音楽サンプルを提示しており、リラックスしたブルース、スムーズなアシッドジャズ、クラシックロック、ハイエナジーファンク、ヘヴィメタルの5つの異なるスタイルを含んでいます。

マスクのxAI、来月Grok 2発表、Grok 3は12月発表予定

イーロン・マスクは、xAIが来月、GPT-4と同等の性能を持つAIモデルGrok 2を発表し、12月にはさらに強力なGrok 3を発表する予定であると発表しました。Grok 3はメンフィスデータセンターで15,000個以上のGPUを用いた大規模なトレーニングが行われています。一部のテスラビデオデータはまだモデルのトレーニングに利用されていませんが、ChatGPTとの比較ではGrokはまだいくつかの点で劣っていることが示されています。Xの買収という文脈においては、キャッチアップには時間が必要です。

小紅書、世界初の「AIコンビニ」を開設 AI関連の優れた投稿に3万～50万PVの支援

小紅書は先日、「科技薯」アカウントを立ち上げ、世界初のAIコンビニ創業プロジェクトを開始しました。全網の優れたクリエイターやテクノロジー企業と協力し、AIの最先端技術、有益な情報、感情的な体験などを提供するコンテンツを配信します。このコンビニでは、@趙純想氏などのクリエイティブなAI製品、例えば食事補助、AI式ラーメンレシピ、AIによる頸椎病治療、林亦LYi氏の家伝のAI治療、AIによる母親の未完成の仕事の完了支援などが販売されています。「科技薯」はまた、イベントを開催し、#AIコンビニを使用してAI関連の投稿を作成した投稿者に3万〜50万PVの支援を提供します。

AI界に衝撃！Llama 3.1リーク：4050億パラメーターのオープンソース巨獣襲来！

最近、4050億パラメーターを持つオープンソースの大規模言語モデルLlama 3.1がRedditでリークされ、大きな注目を集めています。現在、GPT-4に最も近いオープンソース製品と見なされており、一部の性能ではGPT-4を上回るとさえ言われています。Meta（旧Facebook）によってリリースされたこのモデルは、ベースモデルと70Bバージョンのベンチマーク結果を含んでおり、複数の性能テストでGPT-4を上回っています。Llama 3.1は、多言語サポート能力と広範なトレーニングデータセット（15Tトークン以上）を備えています。