最近、Answer.AIとLightOnが共同でオープンソースの言語モデルModernBERTを発表しました。これはGoogleのBERTを大幅にアップグレードしたものです。開発者によると、ModernBERTは処理速度、効率、品質の全てにおいて顕著な向上を見せています。このモデルは、前任モデルよりも4倍速く、メモリ消費量も少なくなっています。

ModernBERTは最大8192トークンのテキストを処理できるよう設計されており、既存のエンコーディングモデルの一般的な512トークン制限の16倍の向上を実現しています。さらに、ModernBERTは広範囲にわたってトレーニングされた初のプログラミングコードエンコーディングモデルであり、StackOverflowのQ&Aデータセットで80点を超えるスコアを獲得し、エンコーディングモデルの新記録を樹立しました。

image.png

汎用言語理解評価(GLUE)において、ModernBERT-Largeは処理速度と正確性の最適なバランスを実現し、トークンあたりの処理時間は約20ミリ秒、スコアは90です。開発チームはModernBERTをチューニングされたホンダシビックに例え、日常的な用途における信頼性と効率性を強調しています。

GPT-4などの既存の大規模言語モデルと比較して、ModernBERTは大規模テキスト処理におけるコストを大幅に削減します。GPT-4のクエリごとの費用は数セントですが、ModernBERTはローカルで実行でき、より高速で安価です。例えば、FineWeb Eduプロジェクトでは、150億トークルのフィルタリングにBERTモデルを使用した場合、コストは6万ドルでしたが、GoogleのGemini Flashデコーダを使用した場合でも100万ドルを超えました。

開発チームは、ModernBERTは検索強化生成(RAG)システム、コード検索、コンテンツレビューなど、さまざまな実用的なアプリケーションに最適であると述べています。GPT-4のように特別なハードウェアを必要としないModernBERTは、一般的な消費者向けゲームGPUでも効率的に動作します。

現在、ModernBERTには基本モデル(1.39億パラメーター)と大型モデル(3.95億パラメーター)の2つのバージョンがあります。両バージョンはHugging Faceで公開されており、ユーザーは既存のBERTモデルを直接置き換えることができます。開発チームは来年、より大規模なバージョンをリリースする予定ですが、マルチモーダル機能の計画はありません。新しいアプリケーションの開発促進のため、彼らはコンテストを開催し、上位5つのデモプレゼンターに100ドルとHugging Faceプロフェッショナルサブスクリプション6ヶ月分を授与します。

2018年にGoogleがBERTを発表して以来、このモデルは最も人気のある言語モデルの1つであり、HuggingFaceでの月間ダウンロード数は6800万回を超えています。

プロジェクト入口:https://huggingface.co/blog/modernbert

要点:

🌟 ModernBERTはBERTよりも4倍速く処理でき、最大8192トークンのテキストを処理できます。

💰 GPT-4と比較して、ModernBERTは大規模テキスト処理のコストを大幅に削減し、より効率的に動作します。

📊 このモデルはプログラミングコードの処理に特に優れており、StackOverflowのQ&Aデータセットで80点を超えるスコアを獲得し、新記録を樹立しました。