ModernBERT-base

長文テキストを効率的に処理する双方向エンコーダーモデル

一般製品プログラミングBERT長文テキスト処理

ModernBERT-baseは、2兆個の英語とコードデータで事前学習された最新の双方向エンコーダーTransformerモデルです。最大8192トークンのコンテキストをネイティブにサポートしています。Rotary Positional Embeddings (RoPE)、Local-Global Alternating Attention、Unpaddingなどの最新のアーキテクチャ改良を採用することで、長文テキスト処理タスクにおいて優れた性能を発揮します。ModernBERT-baseは、検索、分類、大規模コーパスにおける意味検索など、長文書を処理する必要があるタスクに適しています。モデルの訓練データは主に英語とコードであるため、他の言語での性能は低下する可能性があります。

最大8192トークンの長文テキスト処理能力をサポート
Rotary Positional Embeddings (RoPE)による長コンテキストのサポート
Local-Global Alternating Attentionによる長入力の効率向上
UnpaddingとFlash Attentionによる推論効率の最適化
大規模テキストおよびコードデータの事前学習に対応
トークンタイプIDが不要で、下流タスクの利用が簡素化
Flash Attention 2を使用することで、より高い効率を実現

長文テキストデータを処理する必要がある開発者、データサイエンティスト、研究者を対象としています。ModernBERT-baseは、長文テキスト処理能力と英語およびコードデータへの最適化により、自然言語処理、コード検索、混合（テキスト+コード）意味検索などのシナリオに特に適しています。

大規模ドキュメント内での情報検索
コードベースに対する意味検索による関連関数またはモジュールの発見
大規模コーパス内でのテキスト分類と意味検索

1. transformersライブラリのインストール：`pip install git+https://github.com/huggingface/transformers.git` を使用してインストールします。
2. モデルとトークナイザのロード：`AutoTokenizer`と`AutoModelForMaskedLM`を使用して、事前学習済みモデルからトークナイザとモデルをロードします。
3. 入力テキストの準備：処理対象のテキストをトークナイザに入力し、モデルに必要な入力形式を取得します。
4. モデル推論：処理済みの入力データをモデルに渡し、推論を実行します。
5. 予測結果の取得：Masked Language Modelタスクの場合、[MASK]位置の予測結果を取得します。

ウェブサイトを開く

ModernBERT-base 最新のトラフィック状況

月間総訪問数

29742941

直帰率

44.20%

平均ページ/訪問

5.9

平均訪問時間

00:04:44

ModernBERT-base 訪問数の傾向

ModernBERT-base 訪問地理的分布

Best AI Websites & Tools

ModernBERT-base

ModernBERT-base 最新のトラフィック状況

ModernBERT-base 訪問数の傾向

ModernBERT-base 訪問地理的分布

ModernBERT-base トラフィックソース

ModernBERT-base 代替品

ModernBERT-base — 長文テキストを効率的に処理する双方向エンコーダーモデル

ModernBERT-large — 高性能の双方向エンコーダーTransformerモデル

ModernBERT — ModernBERTは、卓越した性能を誇る次世代エンコーダーモデルです。

Aria-Base-64K — 多モーダルネイティブMixture-of-Expertsモデル

Magma — Magmaは、多様なモーダル入力の理解と実行が可能な基礎モデルであり、複雑なタスクや環境で使用できます。

Meta Llama 3.3 — 70Bパラメーターの多言語大規模事前学習言語モデル

ViTLP — ドキュメントインテリジェンスのための、視覚誘導型テキストレイアウト生成事前学習モデル

LUAR — Transformerベースの著者表現学習モデル

Qwen2.5-Coder-32B-Instruct-GPTQ-Int4 — 32億パラメーターのオープンソースコード生成言語モデル

Qwen2.5-Coder-0.5B-Instruct — Qwen2.5-Coderシリーズの指示微調整済み0.5Bパラメータコード生成モデル

Qwen2.5-Coder-3B — Qwen2.5-Coderシリーズの3Bパラメータモデル。コード生成と理解に特化しています。

Qwen2.5-Coder 技術レポート — Qwen2.5-Coderシリーズ技術レポート

kelindar/search — Go言語ライブラリで、埋め込み型ベクトル検索と意味的埋め込みを提供します。

Aya Expanse-8b — 23言語に対応した大規模言語モデル

OLMoE — 1.3億の活性パラメーターを持つ、オープンソースのエキスパート混合言語モデルです。

OpenCity — 交通予測のためのオープンソース時空間基礎モデル

Transformer解説ツール — Transformerモデルを深く理解するための可視化ツール

MusiConGen — Transformerベースのテキストから音楽生成モデル

Meta Llama 3.1-405B — 大規模多言語事前学習済み言語モデル

ViTMatte — 事前学習済み純粋ビジョン変換器による画像切り抜き技術の向上

4M — 多モーダル・マルチタスクモデルのトレーニングフレームワーク

Index-1.9B-Pure — 軽量の大規模言語モデルで、テキスト生成に特化しています。

Index-1.9B-Chat — 19億パラメーターによる対話生成モデル

VideoLLaMA2-7B-Base — 大規模ビデオ言語モデル。ビジュアルクエスチョン・アンサーとビデオ字幕生成を提供します。

雅意情報抽出大規模モデル — 大規模データに基づく高品質な情報抽出モデル

Qwen2 — 卓越な性能を誇る次世代多言語事前学習モデル。

GLM-4V-9B — オープンソースのマルチモーダル事前学習モデルで、中国語と英語の双方向対話機能を備えています。

GLM-4-9B-Chat-1M — 新世代のオープンソース事前学習モデル。複数回にわたる対話と多言語に対応しています。

GLM-4-9B-Chat — 次世代多言語事前学習モデル。長文処理とコード実行に対応しています。

GLM-4シリーズ — オープンソースの多言語・マルチモーダル対話モデル