OneGenは、大規模言語モデル(LLM)向けに設計された、微調整による生成、検索、または混合タスクに使用できる効率的なワンパス生成・検索フレームワークです。その中核となる考え方は、生成タスクと検索タスクを同一コンテキストに統合することであり、自己回帰的に生成された検索トークンに検索タスクを割り当てることで、LLMは単一の前方パスで両方のタスクを実行できます。この手法は、クエリに対して2回の前方パス計算を回避するため、展開コストの低減と推論コストの大幅な削減を実現します。