最近、アップル社は機械学習分野における最新の研究で、NVIDIAとの協力により、大規模言語モデル(LLM)の生成速度を約3倍に向上させたことを発表しました。この進歩の鍵は、アップルがオープンソース化した技術「Recurrent Drafter」(ReDrafter)です。これは推測デコード方式を採用し、モデルのトレーニング効率を大幅に向上させます。
従来、大規模言語モデルの構築は非常に時間と資源を要するプロセスであり、企業は大量のハードウェアを購入する必要があり、運用コストが増大していました。2024年初頭、アップルはReDrafterを発表しました。この技術は、再帰型ニューラルネットワークと動的ツリーアテンションの方式を組み合わせることで、トークンの生成と検証を高速化し、従来の自己回帰方式と比べてトークン生成速度を3.5倍向上させます。
今週、アップルはさらに、NVIDIAとの協力により、ReDrafterをNVIDIAのTensorRT-LLM推論加速フレームワークに統合したと発表しました。これにより、NVIDIA GPUを使用する機械学習開発者は、本番環境でReDrafterの高速化機能を利用できるようになります。高性能なマルチGPUサーバーは通常高価ですが、今回の協力により、遅延を削減しつつ必要なハードウェアの数を減らし、より経済的なソリューションを実現します。
NVIDIAとのベンチマークテストでは、ReDrafterを使用することで生成効率が大幅に向上し、貪欲コーディングモードでの1秒あたりのトークン生成速度が2.7倍向上しました。これは、開発者がより短時間で多くの結果を得ることができ、ユーザーにより迅速なサービス体験を提供できることを意味します。
アップル社はNVIDIAとの協業を発表後、モデルトレーニング効率の向上のため、アマゾンのTrainium2チップの使用も検討していることを明らかにしました。Trainium2を使用した事前トレーニングの効率は、既存のハードウェアと比べて50%向上すると予想されています。
公式ブログ:https://developer.nvidia.com/blog/nvidia-tensorrt-llm-now-supports-recurrent-drafting-for-optimizing-llm-inference/
要点:
🌟 アップルとNVIDIAの協力により、大規模言語モデルの生成速度が約3倍向上。
🚀 オープンソース技術ReDrafterは再帰型ニューラルネットワークを組み合わせ、モデルのトレーニング効率を大幅に向上。
💰 今回の協力によりコスト削減に繋がり、機械学習開発者により効率的なソリューションを提供。