PromptBench

Ein einheitliches Bewertungsframework für Sprachmodelle

Normales ProduktProgrammierungBenchmarkBewertung

PromptBench ist ein Python-Paket, basierend auf PyTorch, zur Bewertung großer Sprachmodelle (LLMs). Es bietet Forschern eine benutzerfreundliche API zur LLM-Evaluierung. Hauptfunktionen umfassen: Schnelle Modellleistungsbewertung, Prompt Engineering, Bewertung von gegnerischen Prompts und dynamische Bewertung. Vorteile sind einfache Bedienung und schnelle Einarbeitung in die Bewertung bestehender Datensätze und Modelle, sowie die einfache Anpassung an eigene Datensätze und Modelle. Positionierung als einheitliche Open-Source-Bibliothek zur LLM-Bewertung.

Best AI Websites & Tools

PromptBench

PromptBench Neueste Verkehrssituation

PromptBench Besuchstrend

PromptBench Geografische Verteilung der Besuche

PromptBench Traffic-Quellen

PromptBench Alternativen

PromptBench — Ein einheitliches Bewertungsframework für Sprachmodelle

ChainForge — Eine quelloffene, visuelle Programmierumgebung für Prompt Engineering.

MLPerf Client — Benchmark für die KI-Leistung von PCs

KnowEdit — KnowEdit-Benchmark zur Bewertung von Wissensbearbeitungsmethoden für große Sprachmodelle.

LMSYS — Organisation zur Entwicklung von Large-Scale-Modell-Systemen

BrainSoup — Bauen Sie Ihr persönliches KI-Team.

GPT App Store — Der beste Marktplatz für benutzerdefinierte GPTs für ChatGPT.

Leitfaden für Prompt Engineering — Leitfaden für Prompt Engineering großer Sprachmodelle

DeepEval — Evaluierungs- und Unit-Testing-Framework für LLMs

OnePrompt — KI-Chat-Assistent-App

ChatGPT Prompt Plus — ChatGPT-Prompt-Vorlagentool zur Zeit- und Arbeitsersparnis.

Promptr — Eine Tipp-Bibliothek für das Zeitalter der KI

Prompting lernen — Ein Leitfaden zur Kommunikation mit künstlicher Intelligenz

Argo — Erstellen Sie ganz einfach Ihr eigenes großes Sprachmodell – exklusives Wissen, komplett lokal.

AoT — Atom of Thoughts (AoT) ist ein Framework zur Verbesserung der Inferenzleistung großer Sprachmodelle.

Level-Navi Agent-Suche — Level-Navi Agent ist ein sofort einsetzbares Framework, das große Sprachmodelle zur tiefgehenden Abfrageanalyse und präzisen Suche nutzt.

M2RAG — Code-Repository für Benchmark-Tests zur retrieval-augmented generation in multimodalen Kontexten.

SWE-RL — Verbesserung der Inferenzfähigkeit großer Sprachmodelle in der Entwicklung von Open-Source-Software durch verstärkendes Lernen

Coding-Tutor — Erkundung des Potenzials großer Sprachmodelle als Programmierhilfe und Einführung des Trace-and-Verify-Workflows.

ZeroBench — ZeroBench ist ein hoch anspruchsvoller visueller Benchmark für moderne, große multimodale Modelle.

MoBA — MoBA ist ein hybrider Block-Aufmerksamkeitsmechanismus für lange Textkontexte, der die Effizienz von großen Sprachmodellen verbessern soll.

SWE-Lancer — SWE-Lancer ist ein Benchmark mit über 1400 Freie-Software-Engineering-Aufgaben im Gesamtwert von 1 Million US-Dollar.

OmniParser-v2.0 — OmniParser ist ein universelles Tool zur Bildschirmanalyse, das UI-Screenshots in ein strukturiertes Format umwandelt und so die Leistung von auf LLMs basierenden UI-Agenten verbessert.

Die letzte Prüfung der Menschheit — Die letzte Prüfung der Menschheit ist ein multimodaler Benchmark zur Bewertung der Fähigkeiten großer Sprachmodelle.

GPT-Foolproof — Ein Browser-Plugin, das verhindert, dass ChatGPT an Leistung verliert, indem es das Zugriffsverhalten maskiert und so die ChatGPT-Nutzererfahrung verbessert.

Geheimer Prompter — Ein unterhaltsames Spiel für KI-Ingenieure, das durch Herausforderungen mit Eingabeaufforderungen die Kreativität fördert.

Procyon KI-Bildgenerierungs-Benchmark — Ein Benchmark-Tool zur Messung der Inferenzleistung von KI-Beschleunigern in Geräten.

AutoGen v0.4 — AutoGen v0.4 aus dem Microsoft Research, konzipiert die Grundlagen von agentenbasierter KI neu und verbessert Skalierbarkeit, Robustheit und Erweiterbarkeit.

Learning Prompt — Kostenloser Online-Kurs zum Prompt Engineering, einschließlich Tutorials für ChatGPT und Midjourney.

AutoMouser — AutoMouser ist eine Chrome-Erweiterung, die Benutzerinteraktionen intelligent verfolgt und automatisch Selenium-Testcode generiert.