月の暗い面がUCLAと共同で新しいMixture-of-Expertモデルを推進し、言語モデルのトレーニング効率を向上させる

最近、人工知能分野で再び波紋が広がっている。月面暗黒面(Moonshot)が新たな最適化器Muonをオープンソースとして公開し、計算効率が従来のAdamWの2倍に向上したと発表した。この新たな最適化器の発表は、DeepSeekが複数のコードライブラリを連続してオープンソース化する直前にあたり、業界で大きな注目と議論を呼んでいる。Muon最適化器は、OpenAIの研究者Keller Jordanらが2024年に最初に提案したもので、小規模モデルのトレーニングにおいて優れた性能を発揮する。
AIの世界では、力技が万能のように思われています。モデルが大きくなればなるほど、データが多くなればなるほど、計算能力が強くなればなるほど、まるで知性の聖杯に近づけるかのように感じます。しかし、この急激な発展の裏には、膨大なコストとエネルギー消費の問題が潜んでいます。AIの学習をより効率的にするために、科学者たちはより強力な最適化器を探し続けています。まるでコーチのように、モデルのパラメータを絶えず最適化し、最終的に最適な状態に導くのです。AdamWはTransformer事前学習のデフォルト最適化器として、長年業界のベンチマークとなっています。
AIが「脳を持つ」ようになった?! マサチューセッツ工科大学(MIT)の最新研究によると、大規模言語モデル(LLM)の内部構造は、人間の脳と驚くべき類似性を持っていることが明らかになりました!この研究では、スパース自己符号化器技術を利用してLLMの活性化空間を詳細に分析し、3つの階層構造を発見しました。まず、ミクロレベルでは、「結晶」のような構造の存在が確認されました。これらの「結晶」の面は平行四辺形や台形で構成されており、私たちがよく知る単語の類推(例:「男性:女性=国王:女王」)と類似しています。
本日未明、Anthropic AI社は、アップグレード版Claude 3.5 Sonnetと新モデルClaude 3.5 Haikuを含むClaude 3.5シリーズを発表しました。これらの新バージョンは、機能とパフォーマンスが大幅に向上しています。同時に、画期的な新機能「Computer use」も発表されました。この機能により、開発者はAPIを通じて、Claudeにマウスやキーボードなどの操作を人間のように行わせる事が可能になります。