phixtral-2x2_8

Modelo experto mixto, con un rendimiento superior al de los modelos expertos individuales.

Producto ComúnProductividadModelo experto mixtoGeneración de texto

phixtral-2x2_8 es el primer modelo experto mixto creado a partir de dos modelos microsoft/phi-2, inspirado en la arquitectura mistralai/Mixtral-8x7B-v0.1. Su rendimiento supera al de cada modelo experto individual. El modelo muestra un excelente desempeño en múltiples métricas de evaluación, incluyendo AGIEval, GPT4All, TruthfulQA y Bigbench. Emplea una versión personalizada de la biblioteca mergekit (rama mixtral) y una configuración específica. Los usuarios pueden ejecutar Phixtral en una GPU T4 gratuita con precisión de 4 bits en un cuaderno de Colab. El modelo tiene un tamaño de 4.46B parámetros y un tipo de tensor F16.

Best AI Websites & Tools

phixtral-2x2_8

phixtral-2x2_8 Situación del tráfico más reciente

phixtral-2x2_8 Tendencia de visitas

phixtral-2x2_8 Distribución geográfica de las visitas

phixtral-2x2_8 Fuentes de tráfico

phixtral-2x2_8 Alternativas

phixtral-2x2_8 — Modelo experto mixto, con un rendimiento superior al de los modelos expertos individuales.

Skywork-MoE-Base — Modelo experto mixto de alto rendimiento con 146 mil millones de parámetros

SmolVLM2 — SmolVLM2 es un modelo de lenguaje ligero que se centra en el análisis y la generación de contenido de video.

Generador Firecrawl LLMs.txt — Herramienta para generar archivos de texto integrados en sitios web para el entrenamiento e inferencia de LLM

QwQ-32B — QwQ-32B es un potente modelo de inferencia, diseñado para la resolución de problemas complejos y la generación de texto, con un rendimiento excepcional.

Magma-8B — Magma-8B es un modelo de IA multimodal desarrollado por Microsoft que puede procesar entradas de imagen y texto y generar salidas de texto.

hallucination-leaderboard — Una tabla de clasificación para comparar la tasa de alucinaciones de modelos lingüísticos grandes (LLM) al resumir documentos cortos.

ZeroBench — ZeroBench es un benchmark visual de alta dificultad para modelos multimodales grandes contemporáneos.

SWE-Lancer — SWE-Lancer es un conjunto de pruebas de referencia que contiene más de 1400 tareas de ingeniería de software de código abierto, con un valor total de 1 millón de dólares.

s1-32B — s1 es un modelo de inferencia ajustado con Qwen2.5-32B-Instruct, entrenado con solo 1000 ejemplos.

Xwen-Chat — Xwen-Chat es un conjunto de modelos de lenguaje grande enfocados en la conversación en chino, que ofrece modelos de varias versiones y servicios de generación de lenguaje.

SmolVLM-256M-Instruct — SmolVLM-256M es el modelo multimodal más pequeño del mundo, capaz de procesar de manera eficiente entradas de imagen y texto y generar salidas de texto.

DeepSeek-R1-Distill-Qwen-14B — DeepSeek-R1-Distill-Qwen-14B es un modelo de generación de texto de alto rendimiento, adecuado para diversas tareas de inferencia y generación.

DeepSeek-R1-Distill-Qwen-32B — DeepSeek-R1-Distill-Qwen-32B es un modelo de lenguaje abierto de alto rendimiento, adecuado para diversas tareas de generación de texto.

AI ContentCraft — AI ContentCraft es una herramienta multifuncional de creación de contenido que integra la generación de texto, la síntesis de voz y la generación de imágenes.

Textoon — Textoon es una herramienta innovadora que genera personajes de dibujos animados 2D vívidos a partir de descripciones de texto.

InternLM3 — InternLM3 es un conjunto de modelos enfocados en la generación de texto, ofreciendo diversas versiones optimizadas para satisfacer diferentes necesidades.

MiniMax-Text-01 — MiniMax-Text-01 es un potente modelo de lenguaje con 456 billones de parámetros totales, capaz de procesar contextos de hasta 4 millones de tokens.

Dria-Agent-a-7B — Un modelo de lenguaje grande basado en la serie Qwen2.5-Coder, enfocado en aplicaciones de agentes.

Llama-3-Patrono-Lince-8B-Instrucciones-Q4_K_M-GGUF — Modelo de lenguaje grande cuantificado basado en un modelo específico, adecuado para tareas de procesamiento del lenguaje natural, entre otras.

InternVL2.5-38B-MPO — Modelo de la serie InternVL2.5-MPO, basado en InternVL2.5 y optimización de preferencias mixtas, que demuestra un rendimiento excepcional.

Llama-3-Patronus-Lynx-70B-Instruct — Modelo de evaluación de código abierto para la detección de alucinaciones, basado en la arquitectura Llama-3, con 70 mil millones de parámetros.

CAG — Un método para mejorar modelos de lenguaje que no requiere búsqueda en tiempo real, aumentando la eficiencia de generación mediante el precarga de un caché de conocimiento.

Eurus-2-7B-PRIME — Modelo de lenguaje de 7B parámetros entrenado con el método PRIME, diseñado para mejorar la capacidad de razonamiento.

llmstxt-generator — Herramienta para generar archivos de texto que integran contenido web para el entrenamiento e inferencia de LLM.

Llama-3-Patronus-Lynx-8B-Instruct — Modelo de evaluación de alucinaciones de código abierto

EXAONE-3.5-7.8B-Instruct-AWQ — Modelo de generación de texto bilingüe desarrollado por LG AI Research

Llama-3-Patronus-Lynx-8B-Instruct-v1.1 — Modelo de evaluación de alucinaciones de código abierto

Llama-3.1-70B-Instruct-AWQ-INT4 — Modelo de generación de texto con 70 mil millones de parámetros

HuatuoGPT-o1-7B — Modelo de lenguaje grande para el ámbito médico, diseñado para razonamiento médico avanzado