OneGen é uma estrutura de geração e recuperação de passagem única eficiente, projetada para modelos de linguagem grandes (LLMs), usada para tarefas de ajuste fino de geração, recuperação ou mistas. Sua ideia central é integrar as tarefas de geração e recuperação no mesmo contexto, atribuindo a tarefa de recuperação a tokens de recuperação gerados de forma autorregressiva, permitindo que o LLM execute ambas as tarefas em uma única passagem direta. Este método não apenas reduz os custos de implantação, mas também diminui significativamente os custos de inferência, pois evita a necessidade de dois cálculos de passagem direta para a consulta.