Benchmark Tortuga

Evalúa la capacidad de razonamiento lógico y comprensión contextual de los grandes modelos de lenguaje.

Producto ComúnProgramaciónPrueba de referenciaRazonamiento lógico

Benchmark Tortuga es una prueba de referencia novedosa e infalible basada en el juego 'Sopa de Tortugas', que se centra en evaluar la capacidad de razonamiento lógico y comprensión contextual de los grandes modelos de lenguaje (LLM). Al eliminar la necesidad de conocimientos previos, proporciona resultados objetivos e imparciales, con resultados cuantificables y, al utilizar preguntas generadas por usuarios reales, evita que los modelos sean 'manipulados'.

Best AI Websites & Tools

Benchmark Tortuga

Benchmark Tortuga Situación del tráfico más reciente

Benchmark Tortuga Tendencia de visitas

Benchmark Tortuga Distribución geográfica de las visitas

Benchmark Tortuga Fuentes de tráfico

Benchmark Tortuga Alternativas

Benchmark Tortuga — Evalúa la capacidad de razonamiento lógico y comprensión contextual de los grandes modelos de lenguaje.

OpenManus — OpenManus es un proyecto de agente inteligente de código abierto que se puede usar sin código de invitación.

Instella — Instella es un modelo de lenguaje de código abierto de alto rendimiento desarrollado por AMD, diseñado para acelerar el desarrollo de modelos de lenguaje de código abierto.

Juego de Eliminación — Un marco de prueba de referencia que evalúa la inteligencia de los modelos lingüísticos grandes en juegos sociales complejos, inspirado en el juego 'Werewolf'.

GPT-4.5 — GPT-4.5, el último modelo de lenguaje lanzado por OpenAI, se centra en mejorar la capacidad de aprendizaje no supervisado y ofrecer una experiencia de interacción más natural.

Gemini 2.0 Flash-Lite — Gemini 2.0 Flash-Lite es un modelo de lenguaje eficiente, optimizado para el procesamiento de textos largos y diversas aplicaciones.

Phi-4-mini-instruct — Phi-4-mini-instruct es un modelo de lenguaje ligero de código abierto, enfocado en datos intensivos de alta calidad y razonamiento.

DeepSeek Japonés — DeepSeek es un modelo de lenguaje IA avanzado, especializado en razonamiento lógico, matemáticas y tareas de programación, disponible de forma gratuita.

AlphaMaze — AlphaMaze es un modelo de lenguaje decodificador centrado en tareas de razonamiento visual, diseñado para superar las deficiencias de los modelos de lenguaje tradicionales en tareas visuales.

Moonlight-16B-A3B — Moonlight-16B-A3B es un modelo de experto mixto de 16B parámetros, entrenado con el optimizador Muon, diseñado para la generación eficiente de lenguaje.

DeepHermes-3-Llama-3-8B-Preview — DeepHermes 3 es un modelo de lenguaje grande que admite modos de inferencia y respuesta convencional.

Lora — Lora es un modelo de lenguaje local optimizado para dispositivos móviles, compatible con iOS y Android.

PaliGemma 2 mix — PaliGemma 2 mix es un modelo de lenguaje visual multifuncional, aplicable a diversas tareas y áreas.

Mistral Saba — Mistral Saba es un modelo de lenguaje regional personalizado para Oriente Medio y el Sur de Asia.

Aplicación OLMoE — Ai2 OLMoE es una aplicación de modelo de lenguaje de código abierto que se ejecuta en dispositivos iOS.

Podscript — Una herramienta para generar transcripciones de texto de podcasts y otros archivos de audio, compatible con varios modelos de lenguaje y API de reconocimiento de voz.

Xwen-Chat — Xwen-Chat es un conjunto de modelos de lenguaje grande enfocados en la conversación en chino, que ofrece modelos de varias versiones y servicios de generación de lenguaje.

LLM Codenames — Una herramienta de nombres creativos basada en LLM que ayuda a los usuarios a generar nombres únicos rápidamente.

Aplicación de Chat Exa & Deepseek — Una aplicación de chat de código abierto que utiliza la API de Exa para la búsqueda en la web y Deepseek R1 para la inferencia.

DeepSeek-R1-Distill-Llama-8B — DeepSeek-R1-Distill-Llama-8B es un modelo de lenguaje de código abierto de alto rendimiento, adecuado para tareas de generación y razonamiento de texto.

QwQ-32B-Preview-gptqmodel-4bit-vortex-v3 — Versión cuantificada a 4 bits basada en el modelo Qwen2.5-32B, diseñada para inferencia eficiente y despliegue con recursos limitados.

ReaderLM v2 — ReaderLM v2 es un pequeño modelo de lenguaje de vanguardia para la conversión de HTML a Markdown y JSON.

MiniMax-Text-01 — MiniMax-Text-01 es un potente modelo de lenguaje con 456 billones de parámetros totales, capaz de procesar contextos de hasta 4 millones de tokens.

MiniMax-01 — Potente modelo de lenguaje con 4560 mil millones de parámetros totales, capaz de procesar contextos de hasta 4 millones de tokens.

fullmoon — Converse con un modelo de lenguaje grande privado y local con miles de millones de parámetros en tu bolsillo.

MiniCPM-o-2_6 — MiniCPM-o 2.6 es un potente modelo de lenguaje multimodal de gran escala, adecuado para transmisión en vivo visual, de voz y multimodal.

MiniCPM-o — MiniCPM-o 2.6: Un MLLM de nivel GPT-4o que permite transmisión en vivo visual, de voz y multimodal en dispositivos móviles.

Llama-3-Patronus-Lynx-70B-Instruct — Modelo de evaluación de código abierto para la detección de alucinaciones, basado en la arquitectura Llama-3, con 70 mil millones de parámetros.

Eurus-2-7B-PRIME — Modelo de lenguaje de 7B parámetros entrenado con el método PRIME, diseñado para mejorar la capacidad de razonamiento.

Eurus-2-7B-SFT — Eurus-2-7B-SFT es un modelo de lenguaje grande optimizado para capacidades matemáticas, enfocado en el razonamiento y la resolución de problemas.