PromptBench

Framework d'évaluation unifié des modèles linguistiques

Produit OrdinaireProgrammationBenchmarkÉvaluation

PromptBench est une bibliothèque Python basée sur PyTorch, conçue pour évaluer les grands modèles linguistiques (LLM). Elle offre aux chercheurs une API conviviale pour l'évaluation des LLM. Ses principales fonctionnalités incluent : l'évaluation rapide des performances des modèles, l'ingénierie des invites, l'évaluation des invites adversariales et l'évaluation dynamique. Son principal avantage réside dans sa simplicité d'utilisation, permettant une évaluation rapide des modèles et des ensembles de données existants, ainsi qu'une personnalisation aisée des ensembles de données et des modèles. Il se positionne comme une bibliothèque open source unifiée pour l'évaluation des LLM.

Best AI Websites & Tools

PromptBench

PromptBench Dernière situation du trafic

PromptBench Tendance des visites

PromptBench Distribution géographique des visites

PromptBench Sources de trafic

PromptBench Alternatives

PromptBench — Framework d'évaluation unifié des modèles linguistiques

ChainForge — Environnement de programmation visuelle open source pour l'ingénierie des invites

BrainSoup — Construisez votre équipe d'IA personnalisée

GPT App Store — Trouvez le meilleur marché de GPT personnalisés pour ChatGPT

OnePrompt — Application d'assistant de conversation IA

PinMyPrompt — Extension de gestion des invites ChatGPT

Raccourci ChatGPT — Améliorez votre productivité : copiez les invites ChatGPT en un clic.

Prompt Optimizer — Un outil d'IA qui facilite la rédaction d'invites de haute qualité, disponible en application Web et en extension Chrome.

M2RAG — Bibliothèque de code de référence pour la génération améliorée par la recherche dans un contexte multimodal.

ZeroBench — ZeroBench est un benchmark visuel hautement exigeant conçu pour les grands modèles multimodaux contemporains.

SWE-Lancer — SWE-Lancer est un benchmark contenant plus de 1400 tâches d'ingénierie logicielle open source, pour une valeur totale d'un million de dollars.

OmniParser-v2.0 — OmniParser est un outil d'analyse d'écran universel capable de convertir des captures d'écran d'interface utilisateur en un format structuré, améliorant ainsi les performances des agents d'interface utilisateur basés sur les grands modèles linguistiques (LLM).

Application Android MNN pour grands modèles linguistiques — Application Android polyvalente pour grands modèles linguistiques prenant en charge les fonctionnalités multimodales.

Le Dernier Examen de l'Humanité — Le Dernier Examen de l'Humanité est un benchmark multimodale destiné à évaluer les capacités des grands modèles de langage.

GPT-foolproof — Extension de navigateur pour empêcher ChatGPT de ralentir, améliorant l'expérience utilisateur en masquant le comportement d'accès.

PaSa — PaSa est un agent de recherche d'articles scientifiques avancé, piloté par un grand modèle linguistique, capable de prendre des décisions autonomes et d'obtenir des résultats précis.

Procyon AI Image Generation Benchmark — Outil de benchmark pour mesurer les performances d'inférence des accélérateurs AI des appareils.

AutoGen v0.4 — AutoGen v0.4, issué par les Microsoft Research, repensant les bases de l'IA par agents, améliorant l'extensibilité, la robustesse et la scalabilité.

AnyParser Pro — AnyParser Pro est un grand modèle linguistique capable d'extraire rapidement et précisément du contenu à partir de PDF, de PPT et d'images.

AutoMouser — AutoMouser est une extension Chrome qui permet de suivre intelligemment les interactions utilisateur et de générer automatiquement du code de test Selenium.

Edexia — Edexia est un outil intelligent d'évaluation et d'annotation.

FlagPerf — Plateforme open source de benchmark des performances des puces IA

Procyon AI Text Generation Benchmark — Outil de test de performance de génération de texte IA

LangWatch — Surveillez, évaluez et optimisez vos applications LLM.

ExploreToM — Cadre de génération à grande échelle de données sur la théorie de l'esprit, diversifiées et stimulantes.

1-800-ChatGPT — Communiquez avec ChatGPT par téléphone ou WhatsApp.

Évaluation factuelle FACTS — Dernier benchmark pour évaluer la fidélité factuelle des grands modèles linguistiques.

MLPerf Client — Benchmark de performance de l'IA sur PC

P-MMEval — Benchmark multilingue et multitâche pour l'évaluation des grands modèles de langage (LLM)

SOTA SWE — Extension VSCode basée sur un framework d'agent pour l'édition de code.