Benchmarks de LLMs com Trapaças

Projeto de pesquisa que explora comportamentos de trapaça em benchmarks de modelos de linguagem automática.

Produto ComumProgramaçãoProcessamento de Linguagem NaturalAprendizado de Máquina

Benchmarks de LLMs com Trapaças é um projeto de pesquisa que visa explorar comportamentos de trapaça em benchmarks de modelos de linguagem automática (LLMs) através da construção de chamados "modelos nulos" (null models). O projeto descobriu experimentalmente que, mesmo modelos nulos simples, conseguem altas taxas de sucesso nesses benchmarks, questionando a eficácia e confiabilidade dos benchmarks existentes. Esta pesquisa é importante para entender as limitações dos modelos de linguagem atuais e melhorar os métodos de benchmark.

Best AI Websites & Tools

Benchmarks de LLMs com Trapaças

Benchmarks de LLMs com Trapaças Situação do Tráfego Mais Recente

Benchmarks de LLMs com Trapaças Tendência de Visitas

Benchmarks de LLMs com Trapaças Distribuição Geográfica das Visitas

Benchmarks de LLMs com Trapaças Fontes de Tráfego

Benchmarks de LLMs com Trapaças Alternativas

Benchmarks de LLMs com Trapaças — Projeto de pesquisa que explora comportamentos de trapaça em benchmarks de modelos de linguagem automática.

olmOCR — O olmOCR é um pacote de ferramentas para linearizar PDFs para treinamento de conjuntos de dados de LLMs.

Finbar — Oferece dados financeiros globais básicos, integrando-se rapidamente a modelos e auxiliando analistas financeiros modernos em seu trabalho eficiente.

Imitar Antes de Detectar — Um método avançado para detectar textos revisados por máquinas, melhorando a precisão da detecção através da imitação do estilo de máquina.

Sonus-1 — Sonus-1: Inaugurando uma nova era para modelos de linguagem de grande porte (LLMs)

Interface Texto-para-CAD — Cria arquivos CAD B-Rep e malhas a partir de prompts de linguagem natural

InternVL2_5-8B-MPO — Modelo de linguagem grande multimodais, demonstrando desempenho geral excepcional.

Llama-3.1-70B-Instruct-AWQ-INT4 — Modelo de geração de texto com 70 bilhões de parâmetros

ModernBERT — O ModernBERT é um modelo de codificador de nova geração com desempenho excepcional.

Smolagents — Biblioteca leve para construir agentes inteligentes de alto desempenho.

Llama-lynx-70b-4bitAWQ — Modelo de geração de texto com 7 bilhões de parâmetros

Gemini 2.0 Flash Experimental — Modelo de IA de alto desempenho desenvolvido pelo Google DeepMind

Q-RWKV-6 32B Instruct Preview — Variante mais poderosa do modelo RWKV, superando vários benchmarks em inglês.

Modelo de Geração de Voz CosyVoice 2.0-0.5B — Modelo de síntese de voz eficiente e multilíngue

tulu-3-sft-olmo-2-mixture — Conjunto de dados de texto multilíngue em larga escala

OLMo-2-1124-7B-RM — Modelo de linguagem grande, usado para geração e classificação de texto

ChatGPT Pro — Acesso em escala a modelos de IA de ponta

PaliGemma 2 — O PaliGemma 2 é um poderoso modelo de linguagem visual, fácil de otimizar.

OLMo 2 1124 7B Mixture de Preferências — Conjunto de dados de texto em larga escala para pesquisa de mistura de preferências

OLMo-2-1124-7B-SFT — Modelo de geração de texto em inglês de alto desempenho

OLMo-2-1124-7B-DPO — Modelo avançado de geração de texto, que suporta o processamento de diversas tarefas.

OLMo-2-1124-13B-DPO — Modelo de linguagem inglês de alto desempenho, adequado para diversas tarefas.

ProactiveAgent — Agente proativo baseado em modelos de linguagem grandes, que prevê as necessidades do usuário e oferece ajuda de forma proativa.

OpenScholar — Modelo de linguagem aprimorado por recuperação para síntese de literatura científica

dolmino-mix-1124 — Conjunto de dados de alta qualidade, usado na segunda etapa do treinamento do OLMo2.

OLMo-2-1124-13B-Instruct — Modelo de linguagem grande otimizado, especializado em geração de texto e diálogo.

OLMo-2-1124-7B-Instruct — Modelo de geração de diálogo em inglês de alto desempenho

Skywork-o1-Open-PRM-Qwen-2.5-7B — Modelo de IA de alto desempenho, aprimorando a capacidade de tarefas de raciocínio.

OLMo 2 — Modelo de linguagem totalmente aberto de última geração

ZipPy — Ferramenta que utiliza a taxa de compressão para detectar rapidamente textos gerados por IA.