小さくパワフル！10名チームがLlama 3.1 405Bを微調整した初のモデルを開発

わずか10名という小規模チームが、テクノロジー大手Metaに挑戦を挑むとは、まさに「ダビデとゴリアテ」の現代版です！

Nous Researchというスタートアップ企業は、決して無名ではありません。彼らが最近発表したHermes3は、Llama3.1をベースにした405Bパラメーターのモデルをファインチューニングしたものです。チームの人数は少ないものの、その実力は侮れません。「10人チーム」は、Mistral、Yi、Llamaなど複数のモデルのファインチューニングに成功しており、ダウンロード数は3300万回を突破。まさにAI界の「ヒットメーカー」です！

Hermes3の登場は、AIの世界に活力を与えるようなものです。FP8量子化後も、その性能は驚くほど強力です。この最適化により、モデルのVRAMとディスクの必要量が大幅に削減され、Hermes3は単一ノードで実行できるようになりました。開発者にとって朗報です！

会話能力において、Hermes3はまさに万能選手です。長期記憶、複数回にわたる会話、ロールプレイング、内部独白など、あらゆる状況に対応できます。Llama3.1の128Kコンテキストウィンドウのおかげで、会話のつながりを維持する点において、まるで経験豊富な外交官のようです。

しかし、Hermes3の能力はそれだけではありません。従来の言語モデルを超える高度な能力を備えており、生成されたテキストの質を精密かつ微妙に理解し、評価することができます。つまり、流暢に話すだけでなく、厳しい文章批評家にもなれるのです！

さらに驚くべきことに、Hermes3は、構造化された出力、中間ステップの出力、内部独白の生成による透明性のある意思決定など、いくつかのエージェント能力を統合しています。まるでAIに「透明な脳」が搭載されたようで、その思考プロセスを垣間見ることができます。

Hermes3のトレーニングプロセスは、AI界の「鬼トレーニング」と言えるでしょう。教師ありファインチューニング（SFT）と直接的選好最適化（DPO）の2段階を経てきました。チームはSFTデータセットの選別と構築に5ヶ月もの時間を費やしました。その集中力と忍耐力は、畏敬の念を抱かせます。

2023年に設立されたニューヨークに拠点を置くNous Researchは、プライベートな応用研究グループであり、AI界の「野蛮人の侵入者」と言えるかもしれません。彼らはオープンソースの力を信じており、閉鎖的な技術によるイノベーションの制限に挑戦することを誓っています。会社のモットーは、「閉鎖的な技術が常にイノベーションの頂点に君臨するという仮説に挑戦し、代わりに強力なオープンソースコードを提供します」と、熱意に満ち溢れています。

わずか1年余りで、Nous Researchは5つのデータセットと89個のモデルを発表しました。この高い生産性は、世界に向けて「大きさは重要ではなく、実力がすべてだ」と宣言しているかのようです！

論文はこちら：https://nousresearch.com/wp-content/uploads/2024/08/Hermes-3-Technical-Report.pdf

公式紹介：https://nousresearch.com/freedom-at-the-frontier-hermes-3/