AI界に衝撃！Llama 3.1リーク：4050億パラメーターのオープンソース巨獣襲来！

AIbase基地

公開日AIニュース · 1 分で読めます · Jul 23, 2024

280

Llama3.1がリークされました！そう、4050億パラメータを誇るこのオープンソースモデルが、Reddit上で大きな波紋を広げています。これは、これまででGPT-4oに最も近いオープンソースモデルであり、場合によってはそれを凌駕する可能性すらあります。

Llama3.1はMeta（旧Facebook）が開発した大規模言語モデルです。公式発表はまだありませんが、リークされたバージョンは既にコミュニティで大きな話題となっています。このモデルには、ベースモデルに加え、8B、70B、そして最大パラメータ数の405Bのベンチマーク結果も含まれています。

性能比較：Llama3.1 vs GPT-4o

リークされた比較結果によると、70BバージョンのLlama3.1ですら、複数のベンチマークテストでGPT-4oを上回っています。オープンソースモデルが複数のベンチマークでSOTA（State of the Art、最先端技術）レベルに達したのは初めてであり、「オープンソースの力は偉大だ！」と感嘆せざるを得ません。

モデルの特長：多言語対応、より豊富なトレーニングデータ

Llama3.1モデルは、公開ソースの15T+トークンを使用してトレーニングされ、事前トレーニングデータの最終日は2023年12月です。英語だけでなく、フランス語、ドイツ語、ヒンディー語、イタリア語、ポルトガル語、スペイン語、タイ語など、複数の言語に対応しています。そのため、多言語での会話ユースケースで優れた性能を発揮します。

Llama3.1の研究チームは、モデルの安全性に非常に重きを置いています。潜在的な安全リスクを軽減するために、人工生成データと合成データを組み合わせた多面的なデータ収集方法を採用しています。さらに、データ品質管理を強化するために、境界プロンプトと敵対的プロンプトも導入されています。

モデルカードソース：https://pastebin.com/9jGkYbXY#google_vignette

AI音楽生成モデルMusiConGen：Transformerを用いた音楽生成、リズムとコードの精密制御

MusiConGenモデルは、事前学習済みのMusicGen-melodyフレームワークを微調整したもので、様々なスタイルの音楽片段の生成に使用されます。研究チームは、コードとリズムの制御パラメータを設定することで、生成された音楽サンプルを提示しており、リラックスしたブルース、スムーズなアシッドジャズ、クラシックロック、ハイエナジーファンク、ヘヴィメタルの5つの異なるスタイルを含んでいます。

マスクのxAI、来月Grok 2発表、Grok 3は12月発表予定

イーロン・マスクは、xAIが来月、GPT-4と同等の性能を持つAIモデルGrok 2を発表し、12月にはさらに強力なGrok 3を発表する予定であると発表しました。Grok 3はメンフィスデータセンターで15,000個以上のGPUを用いた大規模なトレーニングが行われています。一部のテスラビデオデータはまだモデルのトレーニングに利用されていませんが、ChatGPTとの比較ではGrokはまだいくつかの点で劣っていることが示されています。Xの買収という文脈においては、キャッチアップには時間が必要です。

小紅書、世界初の「AIコンビニ」を開設 AI関連の優れた投稿に3万～50万PVの支援

小紅書は先日、「科技薯」アカウントを立ち上げ、世界初のAIコンビニ創業プロジェクトを開始しました。全網の優れたクリエイターやテクノロジー企業と協力し、AIの最先端技術、有益な情報、感情的な体験などを提供するコンテンツを配信します。このコンビニでは、@趙純想氏などのクリエイティブなAI製品、例えば食事補助、AI式ラーメンレシピ、AIによる頸椎病治療、林亦LYi氏の家伝のAI治療、AIによる母親の未完成の仕事の完了支援などが販売されています。「科技薯」はまた、イベントを開催し、#AIコンビニを使用してAI関連の投稿を作成した投稿者に3万〜50万PVの支援を提供します。

アップル、7億パラメーターのオープンソース言語モデルDCLMを発表　精度向上、計算資源削減

アップルとそのパートナーは、7億パラメーターを持つオープンソースの大規模言語モデルDCLMを発表しました。2.5兆個のトークンデータでトレーニングされており、言語の理解と生成能力が大幅に向上しています。DCLMの中核は、標準化されたデータセット最適化ツールであり、Hugging Faceプラットフォームで研究者が実験を行い、様々なデータセットの品質と改善方法を評価することを目的としています。研究によると、DCLMを用いて構築されたベンチマークデータセットは、特にM…において、主要なテストで優れた性能を示すモデルをトレーニングできることが示されています。

AIニュース