OneGen es un marco de generación y recuperación eficiente de una sola pasada diseñado para modelos de lenguaje grandes (LLM), utilizado para el ajuste fino de tareas de generación, recuperación o mixtas. Su idea central consiste en integrar las tareas de generación y recuperación en un mismo contexto, asignando la tarea de recuperación a tokens de recuperación generados de forma autorregresiva, lo que permite al LLM ejecutar ambas tareas en una única pasada hacia adelante. Este método no solo reduce los costes de implementación, sino que también disminuye significativamente los costes de inferencia, ya que evita la necesidad de dos pasadas hacia adelante para calcular la consulta.