OneGen ist ein hocheffizientes, einstufiges Framework für die Generierung und Abfrage, das für große Sprachmodelle (LLMs) entwickelt wurde und für Feinabstimmung, Generierung, Abfrage oder kombinierte Aufgaben verwendet wird. Die Kernidee besteht darin, Generierungs- und Abfrage-Aufgaben in denselben Kontext zu integrieren, indem die Abfrage-Aufgabe an Abfrage-Token zugewiesen wird, die autoregressiv generiert werden. So kann das LLM beide Aufgaben in einer einzigen Vorwärtsübertragung ausführen. Dieses Verfahren senkt nicht nur die Bereitstellungskosten, sondern reduziert auch die Inferenzkosten erheblich, da eine zweifache Vorwärtsübertragungsberechnung für die Abfrage vermieden wird.