SpacTor-T5

Vorab trainiertes T5-Modell, das Absatz-Destruction und Token-Ersatz-Erkennung verwendet.

Normales ProduktProgrammierungNLPPretrainiertes Modell
SpacTor ist ein neuartiges Trainingsverfahren, das (1) ein kombiniertes Ziel aus Absatz-Destruction (SC) und Token-Ersatz-Erkennung (RTD) sowie (2) einen zweistufigen Lehrplan umfasst. Dieser Lehrplan optimiert in den ersten τ Iterationen das kombinierte Ziel und wechselt dann zu den Standard-SC-Verlusten. Wir haben Experimente mit verschiedenen NLP-Aufgaben durchgeführt. Mit einer Encoder-Decoder-Architektur (T5) liefert SpacTor-T5 eine vergleichbare Downstream-Leistung wie das Standard-SC-Pretraining, reduziert aber gleichzeitig die Anzahl der Pretraining-Iterationen um 50 % und die Gesamtzahl der FLOPs um 40 %. Darüber hinaus konnten wir feststellen, dass SpacTor bei gleichem Rechenbudget die Downstream-Benchmark-Leistung deutlich verbessert.
Website öffnen

SpacTor-T5 Neueste Verkehrssituation

Monatliche Gesamtbesuche

29742941

Absprungrate

44.20%

Durchschnittliche Seiten pro Besuch

5.9

Durchschnittliche Besuchsdauer

00:04:44

SpacTor-T5 Besuchstrend

SpacTor-T5 Geografische Verteilung der Besuche

SpacTor-T5 Traffic-Quellen

SpacTor-T5 Alternativen