ModernBERT-large ist ein modernes bidirektionales Encoder-Transformer-Modell (BERT-Stil), das mit 2 Billionen englischen und Code-Daten vortrainiert wurde und eine native Kontextlänge von bis zu 8192 Token aufweist. Das Modell nutzt neueste Architekturverbesserungen wie rotierende Positionseinbettungen (RoPE) zur Unterstützung langer Kontexte, alternierende lokale und globale Aufmerksamkeit zur Steigerung der Effizienz bei langen Eingaben sowie Padding-freie und Flash Attention zur Verbesserung der Inferenzeffizienz. ModernBERT-large eignet sich für Aufgaben, die die Verarbeitung langer Dokumente erfordern, wie z. B. Retrieval, Klassifizierung und semantische Suche in großen Korpora. Die Modelltrainingsdaten bestehen hauptsächlich aus englischen und Code-Daten, daher kann die Leistung in anderen Sprachen geringer sein.