SpacTor-T5
Vorab trainiertes T5-Modell, das Absatz-Destruction und Token-Ersatz-Erkennung verwendet.
Normales ProduktProgrammierungNLPPretrainiertes Modell
SpacTor ist ein neuartiges Trainingsverfahren, das (1) ein kombiniertes Ziel aus Absatz-Destruction (SC) und Token-Ersatz-Erkennung (RTD) sowie (2) einen zweistufigen Lehrplan umfasst. Dieser Lehrplan optimiert in den ersten τ Iterationen das kombinierte Ziel und wechselt dann zu den Standard-SC-Verlusten. Wir haben Experimente mit verschiedenen NLP-Aufgaben durchgeführt. Mit einer Encoder-Decoder-Architektur (T5) liefert SpacTor-T5 eine vergleichbare Downstream-Leistung wie das Standard-SC-Pretraining, reduziert aber gleichzeitig die Anzahl der Pretraining-Iterationen um 50 % und die Gesamtzahl der FLOPs um 40 %. Darüber hinaus konnten wir feststellen, dass SpacTor bei gleichem Rechenbudget die Downstream-Benchmark-Leistung deutlich verbessert.
SpacTor-T5 Neueste Verkehrssituation
Monatliche Gesamtbesuche
29742941
Absprungrate
44.20%
Durchschnittliche Seiten pro Besuch
5.9
Durchschnittliche Besuchsdauer
00:04:44