RULER

Um benchmark de avaliação projetado para testar a robustez de modelos de linguagem para textos longos.

Produto ComumProdutividadeTexto longoModelo de linguagem

O RULER é um novo benchmark sintético que oferece uma avaliação mais completa para modelos de linguagem de texto longo. Ele amplia os testes de recuperação tradicionais, abrangendo diferentes tipos e quantidades de pontos de informação. Além disso, o RULER introduz novas categorias de tarefas, como rastreamento multi-salto e agregação, para testar comportamentos além da simples recuperação de contexto. Avaliamos 10 modelos de linguagem de texto longo no RULER, obtendo resultados em 13 tarefas representativas. Embora esses modelos tenham alcançado precisão quase perfeita em testes de recuperação tradicionais, seu desempenho foi significativamente inferior quando o comprimento do contexto aumentou. Apenas quatro modelos (GPT-4, Command-R, Yi-34B e Mixtral) apresentaram desempenho razoável com comprimento de 32K. Disponibilizamos publicamente o RULER para fomentar uma avaliação abrangente dos modelos de linguagem de texto longo.

Best AI Websites & Tools

RULER

RULER Situação do Tráfego Mais Recente

RULER Tendência de Visitas

RULER Distribuição Geográfica das Visitas

RULER Fontes de Tráfego

RULER Alternativas

RULER — Um benchmark de avaliação projetado para testar a robustez de modelos de linguagem para textos longos.

Inception Labs — O Inception Labs lança uma nova geração de modelos de linguagem grandes difusivos, oferecendo capacidade de geração de linguagem ultrarrápida, eficiente e de alta qualidade.

OpenManus — OpenManus é um projeto de agente inteligente de código aberto que pode ser usado sem código de convite.

Instella — Instella é um modelo de linguagem de código aberto de alto desempenho desenvolvido pela AMD, projetado para acelerar o desenvolvimento de modelos de linguagem de código aberto.

GPT-4.5 — O GPT-4.5, o mais recente modelo de linguagem lançado pela OpenAI, concentra-se em melhorar a capacidade de aprendizado não supervisionado, proporcionando uma experiência de interação mais natural.

Phi-4-mini-instruct — Phi-4-mini-instruct é um modelo de linguagem de código aberto leve, focado em dados de alta qualidade e intensivos em raciocínio.

DeepSeek Japonês — DeepSeek é um modelo de linguagem IA avançado, especializado em raciocínio lógico, matemática e tarefas de programação, com uso gratuito.

AlphaMaze — AlphaMaze é um modelo de linguagem decodificador focado em tarefas de raciocínio visual, projetado para superar as deficiências dos modelos de linguagem tradicionais em tarefas visuais.

Smithery — Expande as capacidades do modelo de linguagem por meio do servidor Model Context Protocol.

Moonlight-16B-A3B — Moonlight-16B-A3B é um modelo de especialista misto de 16B parâmetros treinado com o otimizador Muon, projetado para geração de linguagem eficiente.

DeepHermes-3-Llama-3-8B-Preview — DeepHermes 3 é um grande modelo de linguagem que suporta modos de raciocínio e resposta convencional.

Lora — Lora é um modelo de linguagem local otimizado para dispositivos móveis, compatível com plataformas iOS e Android.

PaliGemma 2 mix — PaliGemma 2 mix é um modelo de linguagem visual multifuncional, aplicável a diversas tarefas e áreas.

Mistral Saba — Mistral Saba é um modelo de linguagem regional personalizado para o Oriente Médio e o Sul da Ásia.

Aplicativo OLMoE — Ai2 OLMoE é um aplicativo de modelo de linguagem de código aberto que roda em dispositivos iOS.

Podscript — Uma ferramenta para gerar transcrições de texto de podcasts e outros arquivos de áudio, com suporte para vários modelos de linguagem e APIs de reconhecimento de voz.

Xwen-Chat — Xwen-Chat é um conjunto de modelos de linguagem grandes focados em diálogo em chinês, oferecendo diversos modelos e serviços de geração de linguagem.

LLM Codenames — Uma ferramenta de criação de nomes baseada em LLM, que ajuda os usuários a gerar nomes exclusivos rapidamente.

Aplicativo de Bate-Papo Exa & Deepseek — Um aplicativo de bate-papo de código aberto que utiliza a API Exa para pesquisa na web e o Deepseek R1 para raciocínio.

Gemini 2.0 Flash Thinking Experimental — Gemini 2.0 Flash Thinking Experimental é um modelo de raciocínio aprimorado que demonstra seu processo de pensamento para melhorar o desempenho e a interpretabilidade.

DeepSeek-R1-Distill-Llama-8B — DeepSeek-R1-Distill-Llama-8B é um modelo de linguagem de código aberto de alto desempenho, adequado para tarefas de geração e raciocínio de texto.

QwQ-32B-Preview-gptqmodel-4bit-vortex-v3 — Esta é uma versão quantizada de 4 bits do modelo Qwen2.5-32B, projetada para inferência eficiente e implantação com poucos recursos.

ReaderLM v2 — ReaderLM v2 é um pequeno modelo de linguagem de ponta para conversão de HTML para Markdown e JSON.

MiniMax-Texto-01 — MiniMax-Texto-01 é um poderoso modelo de linguagem com 456 bilhões de parâmetros, capaz de processar contextos de até 4 milhões de tokens.

MiniMax-01 — Modelo de linguagem poderoso com 456 bilhões de parâmetros, capaz de processar contextos de até 4 milhões de tokens.

LuaCheia — Tenha bilhões de parâmetros no seu bolso e converse com um modelo de linguagem grande privado e local.

MiniCPM-o-2_6 — MiniCPM-o 2.6 é um poderoso modelo de linguagem grande multimodal, adequado para transmissão ao vivo visual, de voz e multimodal.

MiniCPM-o — MiniCPM-o 2.6: Um MLLM de nível GPT-4o que permite streaming visual, de voz e multimodais em dispositivos móveis.

Llama-3-Patronus-Lynx-70B-Instruct — Modelo de avaliação de código aberto para detecção de alucinações, baseado na arquitetura Llama-3, com 70 bilhões de parâmetros.

Eurus-2-7B-PRIME — Modelo de linguagem de 7B parâmetros treinado com o método PRIME, projetado para aprimorar a capacidade de raciocínio.