ModernBERT-baseは、2兆個の英語とコードデータで事前学習された最新の双方向エンコーダーTransformerモデルです。最大8192トークンのコンテキストをネイティブにサポートしています。Rotary Positional Embeddings (RoPE)、Local-Global Alternating Attention、Unpaddingなどの最新のアーキテクチャ改良を採用することで、長文テキスト処理タスクにおいて優れた性能を発揮します。ModernBERT-baseは、検索、分類、大規模コーパスにおける意味検索など、長文書を処理する必要があるタスクに適しています。モデルの訓練データは主に英語とコードであるため、他の言語での性能は低下する可能性があります。