PromptBench

Framework unificado de avaliação de modelos de linguagem

Produto ComumProgramaçãoBenchmarkAvaliação

PromptBench é um pacote Python baseado em Pytorch para avaliação de grandes modelos de linguagem (LLM). Ele fornece uma API amigável para pesquisadores avaliarem LLMs. Suas principais funcionalidades incluem: avaliação rápida do desempenho do modelo, engenharia de prompts, avaliação de prompts adversariais e avaliação dinâmica. Suas vantagens são a facilidade de uso e a rápida avaliação de conjuntos de dados e modelos existentes, além da possibilidade de fácil personalização de seus próprios conjuntos de dados e modelos. Seu objetivo é ser uma biblioteca open source unificada para avaliação de LLMs.

Best AI Websites & Tools

PromptBench

PromptBench Situação do Tráfego Mais Recente

PromptBench Tendência de Visitas

PromptBench Distribuição Geográfica das Visitas

PromptBench Fontes de Tráfego

PromptBench Alternativas

PromptBench — Framework unificado de avaliação de modelos de linguagem

M2RAG — Repositório de código de benchmark para geração aprimorada por recuperação em contexto multimodal.

ChainForge — Ambiente de programação visual de código aberto para engenharia de prompts.

OnePrompt — Aplicativo de assistente de bate-papo com IA

PinMyPrompt — Plugin de gerenciamento de tags para ChatGPT

ChatGPT Prompt Plus — Ferramenta de modelos de prompt para ChatGPT, economizando tempo e esforço.

Promptr — Serviço de biblioteca de prompts para a era da IA

Atalho ChatGPT — Aumente sua produtividade com um clique: copie prompts do ChatGPT instantaneamente.

Prompt Optimizer — Uma ferramenta de otimização de IA que auxilia na escrita de prompts de alta qualidade, compatível com aplicativos web e extensões do Chrome.

Coding-Tutor — Explorar o potencial dos grandes modelos de linguagem como ferramentas de tutoria em programação, propondo um fluxo de trabalho de Rastreamento e Verificação.

ZeroBench — ZeroBench é um benchmark visual de alta dificuldade para modelos multimodais de grande porte contemporâneos.

SWE-Lancer — SWE-Lancer é um benchmark contendo mais de 1400 tarefas de engenharia de software freelance, com um valor total de US$ 1 milhão.

O Último Exame da Humanidade — O Último Exame da Humanidade é um benchmark multimodal usado para avaliar a capacidade de modelos de linguagem de grande porte.

GPT-Foolproof — Extensão de navegador que previne a queda de desempenho do ChatGPT, melhorando a experiência do usuário por meio da camuflagem do comportamento de acesso.

Secret Prompter — Um jogo divertido para engenheiros de IA, que estimula a criatividade por meio de desafios de prompts.

Procyon AI Image Generation Benchmark — Ferramenta de benchmark para medir o desempenho de inferência de aceleradores de IA de dispositivos.

AutoGen v0.4 — O AutoGen v0.4 da Microsoft Research reconceitua os fundamentos da IA baseada em agentes, melhorando a escalabilidade, robustez e extensibilidade.

AutoMouser — AutoMouser é uma extensão do Chrome que rastreia interações do usuário de forma inteligente e gera automaticamente código de teste Selenium.

Edexia — Edexia é uma ferramenta inteligente de avaliação e classificação.

FlagPerf — Plataforma de benchmark de desempenho de chip AI de código aberto

Procyon AI Text Generation Benchmark — Ferramenta de benchmark para desempenho de geração de texto de IA

LangWatch — Monitore, avalie e otimize seus aplicativos LLM

1-800-ChatGPT — Converse com o ChatGPT por telefone ou WhatsApp.

FACTS Grounding — Benchmark recente para avaliar a veracidade de grandes modelos de linguagem.

Procyon AI Inference Benchmark para Android — Ferramenta de benchmark para medir o desempenho e a qualidade da IA em dispositivos Android

MLPerf Client — Benchmark de desempenho de IA para computadores pessoais

P-MMEval — Benchmark de avaliação multilíngue e multitarefa para modelos de linguagem grandes (LLMs)

SOTA SWE — Extensão VSCode baseada em um framework de agentes para edição de código.

Coval — Plataforma de teste e avaliação de agentes de IA

SnapAI — Assistente de IA para usuários de Mac, com tecnologia ChatGPT