ModernBERT-largeは、最新のアーキテクチャ改良(回転位置埋め込み(RoPE)による長文コンテキスト対応、局所-グローバル交互注意機構による長入力の効率化、パディング不要とFlash Attentionによる推論効率向上など)を取り入れた、現代的な双方向エンコーダーTransformerモデル(BERTスタイル)です。2兆個の英語とコードのデータで事前学習されており、最大8192トークンのネイティブなコンテキスト長を備えています。長文書の処理が必要な検索、分類、大規模コーパスでの意味検索などのタスクに適しています。モデルの訓練データは主に英語とコードであるため、他の言語でのパフォーマンスは低い可能性があります。