Kürzlich haben Answer.AI und LightOn das Open-Source-Sprachmodell ModernBERT veröffentlicht, ein bedeutendes Upgrade des Google BERT Modells. Laut den Entwicklern bietet ModernBERT erhebliche Verbesserungen in Bezug auf Geschwindigkeit, Effizienz und Qualität. Das Modell ist viermal schneller als sein Vorgänger und benötigt gleichzeitig weniger Arbeitsspeicher.

ModernBERT ist so konzipiert, dass es Texte mit bis zu 8192 Tokens verarbeiten kann – eine 16-fache Steigerung gegenüber der typischen Beschränkung von 512 Tokens bei bestehenden Codierungsmodellen. Darüber hinaus ist ModernBERT das erste umfassend trainierte Codierungsmodell für Programmiercode und erzielte im StackOverflow-Frage-Antwort-Datensatz einen Wert von über 80, womit ein neuer Rekord für Codierungsmodelle aufgestellt wurde.

image.png

In der General Language Understanding Evaluation (GLUE) erreichte ModernBERT-Large die beste Balance zwischen Geschwindigkeit und Genauigkeit mit einer Verarbeitungszeit von etwa 20 Millisekunden pro Token und einem Score von 90. Das Entwicklerteam vergleicht ModernBERT bildlich mit einem getunten Honda Civic und betont seine Zuverlässigkeit und Effizienz im täglichen Einsatz.

Im Vergleich zu bestehenden großen Sprachmodellen wie GPT-4 reduziert ModernBERT die Kosten bei der Verarbeitung großer Textmengen erheblich. Während GPT-4 pro Anfrage mehrere Cent kostet, kann ModernBERT lokal ausgeführt werden und ist somit schneller und günstiger. Beispielsweise betrugen die Kosten für das FineWeb Edu-Projekt bei der Filterung von 15 Milliarden Tokens mit dem BERT-Modell 60.000 US-Dollar, während sie selbst mit dem Google Gemini Flash-Decoder über 1 Million US-Dollar betrugen.

Das Entwicklerteam gibt an, dass ModernBERT für eine Vielzahl von praktischen Anwendungen bestens geeignet ist, darunter Retrieval-Augmented Generation (RAG)-Systeme, Code-Suche und Inhaltsprüfung. Im Gegensatz zu GPT-4, das spezielle Hardware benötigt, kann ModernBERT effizient auf gängigen Consumer-Gaming-GPUs betrieben werden.

Derzeit gibt es zwei Versionen von ModernBERT: ein Basismodell mit 139 Millionen Parametern und ein großes Modell mit 395 Millionen Parametern. Beide Versionen wurden auf Hugging Face veröffentlicht, und Benutzer können sie direkt als Ersatz für bestehende BERT-Modelle verwenden. Das Entwicklerteam plant für das nächste Jahr die Einführung größerer Versionen, jedoch keine Pläne für multimodalen Fähigkeiten. Um die Entwicklung neuer Anwendungen zu fördern, wurde ein Wettbewerb ins Leben gerufen, bei dem die fünf besten Präsentationen mit 100 US-Dollar und einer sechsmonatigen Hugging Face Pro-Mitgliedschaft belohnt werden.

Seit der Einführung von BERT durch Google im Jahr 2018 ist das Modell eines der beliebtesten Sprachmodelle und verzeichnet monatlich über 68 Millionen Downloads auf HuggingFace.

Projektseite: https://huggingface.co/blog/modernbert

Wichtigste Punkte:

🌟 ModernBERT ist viermal schneller als BERT und kann Texte mit bis zu 8192 Tokens verarbeiten.

💰 Im Vergleich zu GPT-4 reduziert ModernBERT die Kosten für die Verarbeitung großer Textmengen erheblich und ist effizienter.

📊 Das Modell ist besonders gut in der Verarbeitung von Programmiercode und erzielte im StackOverflow-Frage-Antwort-Datensatz einen Wert von über 80, womit ein neuer Rekord aufgestellt wurde.