RULER

Ein Bewertungsmaßstab zur Überprüfung der Angemessenheit großer Sprachmodelle für lange Texte.

Normales ProduktProduktivitätLange TexteSprachmodell

RULER ist ein neuer, synthetischer Benchmark, der eine umfassendere Bewertung großer Sprachmodelle für lange Texte ermöglicht. Er erweitert herkömmliche Retrieval-Tests und umfasst unterschiedliche Typen und Mengen an Informationspunkten. Darüber hinaus führt RULER neue Aufgabentypen wie Multi-Hop-Tracking und Aggregation ein, um Verhaltensweisen über das reine Retrieval aus dem Kontext hinaus zu testen. 10 große Sprachmodelle für lange Texte wurden auf RULER evaluiert und in 13 repräsentativen Aufgaben bewertet. Obwohl diese Modelle in herkömmlichen Retrieval-Tests nahezu perfekte Genauigkeit erzielten, zeigten sie bei zunehmender Kontextlänge eine deutlich schlechtere Performance. Nur vier Modelle (GPT-4, Command-R, Yi-34B und Mixtral) zeigten bei einer Länge von 32K eine zufriedenstellende Leistung. Wir veröffentlichen RULER als Open Source, um eine umfassende Bewertung großer Sprachmodelle für lange Texte zu fördern.

Best AI Websites & Tools

RULER

RULER Neueste Verkehrssituation

RULER Besuchstrend

RULER Geografische Verteilung der Besuche

RULER Traffic-Quellen

RULER Alternativen

RULER — Ein Bewertungsmaßstab zur Überprüfung der Angemessenheit großer Sprachmodelle für lange Texte.

OpenCompass 2.0 Large Language Model Bestenliste — Bestenliste für große Sprachmodelle, die die Modellleistung in Echtzeit bewertet.

Inception Labs — Inception Labs bringt eine neue Generation diffusionsbasierter Sprachmodelle auf den Markt und bietet extrem schnelle, effiziente und hochwertige Sprachgenerierung.

OpenManus — OpenManus ist ein Open-Source-Projekt für intelligente Agenten, das ohne Einladungscode verwendet werden kann.

Instella — Instella ist ein von AMD entwickeltes, leistungsstarkes Open-Source-Sprachmodell, das speziell für die Beschleunigung der Entwicklung von Open-Source-Sprachmodellen entwickelt wurde.

GPT-4.5 — Das neueste Sprachmodell GPT-4.5 von OpenAI konzentriert sich auf die Verbesserung der Fähigkeiten des unüberwachten Lernens und bietet ein natürlicheres interaktives Erlebnis.

Gemini 2.0 Flash-Lite — Gemini 2.0 Flash-Lite ist ein effizientes Sprachmodell, das speziell für die Verarbeitung langer Texte und verschiedene Anwendungsfälle optimiert wurde.

Phi-4-mini-instruct — Phi-4-mini-instruct ist ein leichtgewichtiges Open-Source-Sprachmodell, das sich auf hochwertige, inferenzintensive Daten konzentriert.

DeepSeek Japanisch — DeepSeek ist ein fortschrittliches KI-Sprachmodell, das sich auf logisches Denken, Mathematik und Programmieraufgaben spezialisiert hat und kostenlos nutzbar ist.

AlphaMaze — AlphaMaze ist ein Decoder-Sprachmodell, das sich auf visuelle Inferenzaufgaben konzentriert und die Schwächen traditioneller Sprachmodelle bei visuellen Aufgaben beheben soll.

Smithery — Erweitert die Fähigkeiten von Sprachmodellen über den Model Context Protocol Server.

Moonlight-16B-A3B — Moonlight-16B-A3B ist ein 16B-Parameter-Mix-Expertenmodell, das mit dem Muon-Optimierer trainiert wurde und für die effiziente Spracherzeugung entwickelt wurde.

DeepHermes-3-Llama-3-8B-Preview — DeepHermes 3 ist ein großes Sprachmodell, das sowohl Inferenz- als auch konventionelle Antwortmodi unterstützt.

Lora — Lora ist ein für mobile Geräte optimiertes lokales Sprachmodell, das iOS und Android unterstützt.

PaliGemma 2 Mix — PaliGemma 2 Mix ist ein vielseitiges visuell-sprachliches Modell für diverse Aufgaben und Bereiche.

Mistral Saba — Mistral Saba ist ein regionsspezifisches Sprachmodell, das speziell für den Nahen Osten und Südasien entwickelt wurde.

OLMoE App — Ai2 OLMoE ist eine Open-Source-Anwendung für Sprachmodelle, die auf iOS-Geräten läuft.

Podscript — Ein Tool zur Erstellung von Transkripten für Podcasts und andere Audiodateien, das verschiedene Sprachmodelle und Spracherkennungs-APIs unterstützt.

Xwen-Chat — Xwen-Chat ist eine Sammlung von großen Sprachmodellen, die sich auf chinesische Konversationen konzentrieren und verschiedene Modellversionen sowie Sprachgenerierungsdienste anbieten.

LLM Codename — Ein kreatives Benennungstool auf Basis von LLM, das Nutzern hilft, schnell einzigartige Namen zu generieren.

Exa & Deepseek Chat-App — Eine Open-Source Chat-Anwendung, die die Exa-API für die Websuche und Deepseek R1 für die Inferenz nutzt.

Gemini 2.0 Flash Thinking Experiment — Gemini 2.0 Flash Thinking Experiment ist ein verbessertes Inferenzmodell, das seinen Denkprozess visualisiert, um Leistung und Interpretierbarkeit zu steigern.

DeepSeek-R1-Distill-Llama-8B — DeepSeek-R1-Distill-Llama-8B ist ein leistungsstarkes Open-Source-Sprachmodell für Textgenerierung und Inferenzaufgaben.

QwQ-32B-Preview-gptqmodel-4bit-vortex-v3 — Dies ist eine 4-Bit-quantisierte Version des Qwen2.5-32B-Modells, die für effizientes Inferencing und den Einsatz mit geringen Ressourcen entwickelt wurde.

ReaderLM v2 — ReaderLM v2 ist ein fortschrittliches, kleines Sprachmodell für die Konvertierung von HTML in Markdown und JSON.

MiniMax-Text-01 — MiniMax-Text-01 ist ein leistungsstarkes Sprachmodell mit 456 Milliarden Parametern, das Kontexte mit bis zu 4 Millionen Token verarbeiten kann.

MiniMax-01 — Leistungsstarkes Sprachmodell mit 4560 Milliarden Parametern, das Kontexte mit bis zu 4 Millionen Token verarbeiten kann.

Vollmond — Mit einer Milliarde Parametern in Ihrer Tasche: Chatten Sie mit einem privaten, lokalen großen Sprachmodell.

MiniCPM-o-2_6 — MiniCPM-o 2.6 ist ein leistungsstarkes, multimodales großes Sprachmodell, das sich für visuelle, sprachbasierte und multimodale Live-Übertragungen eignet.

MiniCPM-o — MiniCPM-o 2.6: Ein MLLM (Multimodales Large Language Model) auf GPT-4o-Niveau, das visuelle, sprachliche und multimodale Livestreaming auf Smartphones ermöglicht.