月面暗黒研究員のFlood Sung氏が最近、1万字に及ぶ長文を発表し、k1.5モデルの開発思想を初めて詳細に明らかにするとともに、OpenAIのo1モデルがもたらした技術的示唆について深く考察しました。
Flood Sung氏によると、Long-CoT(長鎖思考)の重要性は、1年以上前に月面暗黒の共同設立者であるTim Zhou Xin Yu氏によって既に検証されていました。小型モデルを用いて多桁演算を訓練し、その細かな演算過程を長鎖思考データに変換してSFT(教師あり微調整)を行うことで、顕著な効果が得られることが分かりました。
しかし、コストの制約から、月面暗黒はこれまでLong Context(長文入力)の最適化に重点を置いてきました。Flood Sung氏は、Long Contextは主に入力側を処理し、PrefillプリフィリングとMooncake技術を用いることで、コストと速度を比較的うまく制御できると説明しています。これに対し、Long-CoTは出力側に重点を置き、より高いコストと長い処理時間を必要とします。
しかし、OpenAIのo1モデルの発表により、チームは技術の方向性の優先順位を見直すことになりました。「性能こそが最も重要だ」とFlood Sung氏は述べ、「コストと速度は技術の進歩とともに最適化されていく。重要なのは、まず性能を突破することだ」と強調しました。この認識に基づき、月面暗黒はLong-CoT研究を全面的に推進し、モデルが人間により近い自由な思考能力を実現することを目指しています。
今回の技術解明記事の発表は、月面暗黒がo1モデルを体系的にベンチマークし、関連分野で実質的な研究を開始したことを示しています。
o1解読過程を解明する1万字の長文:https://mp.weixin.qq.com/s/sJmT-tM3A-mglZ1d4OI80A