Evaluación de Sesgos en Benchmarks de LLM

Proyecto de investigación que explora el comportamiento fraudulento en los benchmarks de modelos de lenguaje automático.

Producto ComúnProgramaciónProcesamiento del Lenguaje NaturalAprendizaje Automático

Abrir sitio web

Evaluación de Sesgos en Benchmarks de LLM es un proyecto de investigación que busca explorar el comportamiento fraudulento en los benchmarks de modelos de lenguaje automático (LLM) mediante la construcción de lo que se conoce como "modelos nulos" (null models). El proyecto ha descubierto experimentalmente que incluso modelos nulos simples pueden obtener altas tasas de éxito en estas pruebas, lo que cuestiona la validez y fiabilidad de los benchmarks actuales. Esta investigación es importante para comprender las limitaciones de los modelos de lenguaje actuales y mejorar los métodos de evaluación comparativa.

Best AI Websites & Tools

Evaluación de Sesgos en Benchmarks de LLM

Evaluación de Sesgos en Benchmarks de LLM Situación del tráfico más reciente

Evaluación de Sesgos en Benchmarks de LLM Tendencia de visitas

Evaluación de Sesgos en Benchmarks de LLM Distribución geográfica de las visitas

Evaluación de Sesgos en Benchmarks de LLM Fuentes de tráfico

Evaluación de Sesgos en Benchmarks de LLM Alternativas

Evaluación de Sesgos en Benchmarks de LLM — Proyecto de investigación que explora el comportamiento fraudulento en los benchmarks de modelos de lenguaje automático.

olmOCR — olmOCR es un conjunto de herramientas para linealizar PDF para el entrenamiento de conjuntos de datos LLM.

hallucination-leaderboard — Una tabla de clasificación para comparar la tasa de alucinaciones de modelos lingüísticos grandes (LLM) al resumir documentos cortos.

Finbar — Proporciona datos financieros básicos globales, integrándose rápidamente en los modelos y facilitando el trabajo eficiente de los analistas financieros modernos.

Imitar Antes de Detectar — Un método avanzado para detectar textos modificados por máquinas, que mejora la precisión de la detección imitando el estilo de las máquinas.

Sonus-1 — Sonus-1: Inaugurando una nueva era para los modelos de lenguaje grandes (LLM)

Interfaz de usuario Texto a CAD — Crea archivos CAD B-Rep y mallas a partir de indicaciones en lenguaje natural

InternVL2.5-8B-MPO — Modelo lingüístico grande multimodales que muestra un rendimiento general excelente.

Llama-3.1-70B-Instruct-AWQ-INT4 — Modelo de generación de texto con 70 mil millones de parámetros

ModernBERT — ModernBERT es un modelo de codificador de última generación con un rendimiento excepcional.

Smolagents — Biblioteca ligera para construir agentes inteligentes de alto rendimiento

Llama-lynx-70b-4bitAWQ — Modelo de generación de texto de 7000 millones de parámetros

Gemini 2.0 Flash Experimental — Modelo de IA de alto rendimiento desarrollado por Google DeepMind

Q-RWKV-6 32B Instruct Vista previa — Variante de modelo RWKV más potente, superando varios benchmarks en inglés.

CosyVoice Generación de Voz Modelo grande 2.0-0.5B — Modelo de síntesis de voz eficiente y multilingüe

tulu-3-sft-olmo-2-mixture — Conjunto de datos de texto multilingüe a gran escala

OLMo-2-1124-7B-RM — Modelo de lenguaje grande para generación y clasificación de texto

ChatGPT Pro — Solución de acceso a escala a modelos de IA de vanguardia

PaliGemma 2 — PaliGemma 2 es un potente modelo de lenguaje visual, fácil de ajustar.

OLMo 2 1124 7B Preference Mixture — Conjunto de datos de texto a gran escala para investigación de mezcla de preferencias

OLMo-2-1124-7B-SFT — Modelo de generación de texto en inglés de alto rendimiento

OLMo-2-1124-7B-DPO — Modelo avanzado de generación de texto que admite el procesamiento de diversas tareas.

OLMo-2-1124-13B-DPO — Modelo de lenguaje de alto rendimiento en inglés, adecuado para diversas tareas.

ProactiveAgent — Agente proactivo basado en modelos lingüísticos de gran tamaño (LLM), que predice las necesidades del usuario y ofrece ayuda de forma proactiva.

OpenScholar — Modelo de lenguaje aumentado por búsqueda para la síntesis de literatura científica

dolmino-mix-1124 — Conjunto de datos de alta calidad para la segunda etapa de entrenamiento de OLMo2.

OLMo-2-1124-13B-Instruct — Modelo de lenguaje grande optimizado para la generación de texto y la conversación.

OLMo-2-1124-7B-Instruct — Modelo de generación de diálogo en inglés de alto rendimiento

Skywork-o1-Open-PRM-Qwen-2.5-7B — Modelo de IA de alto rendimiento que mejora la capacidad de las tareas de razonamiento.

OLMo 2 — Modelo de lenguaje completamente abierto de última generación