vLLM

Plataforma de inferencia y servicio LLM rápida y fácil de usar

Selección InternacionalProgramaciónLLMInferencia

vLLM es una biblioteca rápida, fácil de usar y eficiente para la inferencia y el servicio de modelos de lenguaje grandes (LLM). Ofrece un servicio de inferencia de alto rendimiento mediante el uso de las últimas técnicas de rendimiento de servicio, administración eficiente de memoria, solicitudes de procesamiento por lotes continuas, ejecución rápida de modelos de gráficos CUDA/HIP, técnicas de cuantificación y núcleos CUDA optimizados. vLLM admite la integración perfecta con los modelos populares de HuggingFace, admite varios algoritmos de decodificación, incluyendo muestreo paralelo y búsqueda de haces, admite el paralelismo de tensores, es adecuado para la inferencia distribuida, admite la salida en flujo y es compatible con el servidor de API de OpenAI. Además, vLLM admite GPU NVIDIA y AMD, así como el almacenamiento en caché de prefijos experimental y soporte multi-LoRA.

Best AI Websites & Tools

vLLM

vLLM Situación del tráfico más reciente

vLLM Tendencia de visitas

vLLM Distribución geográfica de las visitas

vLLM Fuentes de tráfico

vLLM Alternativas

vLLM — Plataforma de inferencia y servicio LLM rápida y fácil de usar

FlashInfer — FlashInfer es una biblioteca de núcleos de GPU de alto rendimiento para servicios de modelos de lenguaje grandes.

Llama-3.1-Nemotron-70B-Instruct — Modelo de lenguaje grande personalizado por NVIDIA para mejorar la utilidad de las respuestas a consultas.

LLM Eficiente — Solución de inferencia LLM eficiente en GPU Intel

l1m — Una API proxy para extraer datos estructurados de texto e imágenes, implementada con LLMs.

Generador Firecrawl LLMs.txt — Herramienta para generar archivos de texto integrados en sitios web para el entrenamiento e inferencia de LLM

Traductor Hugo — Herramienta de traducción de artículos basada en LLM, que traduce automáticamente y crea archivos Markdown multilingües.

QwQ-32B — QwQ-32B es un potente modelo de inferencia, diseñado para la resolución de problemas complejos y la generación de texto, con un rendimiento excepcional.

Agentes Aviator — Marco de agentes basado en LLM, utilizado para realizar migraciones de código a gran escala en repositorios de código.

llm-commit — Un plugin pour générer des messages de commit Git avec un LLM

Claude 3.7 Sonnet — Claude 3.7 Sonnet es el último modelo inteligente de Anthropic, que ofrece respuestas rápidas y razonamiento profundo.

DeepHermes-3-Llama-3-8B-Preview — DeepHermes 3 es un modelo de lenguaje grande que admite modos de inferencia y respuesta convencional.

Crawl4LLM — Una herramienta de rastreo web eficiente para el preentrenamiento de LLM, enfocada en obtener datos web de alta calidad de manera eficiente.

Kie.ai — Kie.ai integra las API DeepSeek R1 y V3, ofreciendo soluciones de IA seguras y escalables.

hallucination-leaderboard — Una tabla de clasificación para comparar la tasa de alucinaciones de modelos lingüísticos grandes (LLM) al resumir documentos cortos.

VisionAgent — VisionAgent es una biblioteca para generar código que resuelve tareas de visión, compatible con múltiples proveedores de LLM.

OmniParser V2 — OmniParser V2 es una tecnología que transforma cualquier LLM en un agente utilizable por computadora.

Supametas.AI — Plataforma de procesamiento de datos no estructurados que ayuda a las empresas a construir rápidamente conjuntos de datos sectoriales e integrarlos en la base de conocimiento LLM RAG.

Detección de Objetos Agénticos — Tecnología de detección de objetos basada en inferencia, que permite una detección con precisión similar a la humana mediante indicaciones de texto.

stocks-insights-ai-agent — Aplicación full-stack basada en LLM y LangChain para la recuperación de datos y noticias bursátiles.

OpenDeepResearcher — Una herramienta de investigación profunda basada en IA que busca información continuamente hasta satisfacer las necesidades de consulta del usuario.

Please — Please es una empresa dedicada a proporcionar servicios de inteligencia artificial a los consumidores.

Confucio-o1-14B — Modelo de inferencia ligero desarrollado por NetEase Youdao, desplegable en una sola GPU, con capacidad de inferencia similar a o1.

DeepSeek-R1-Distill-Qwen-14B — DeepSeek-R1-Distill-Qwen-14B es un modelo de generación de texto de alto rendimiento, adecuado para diversas tareas de inferencia y generación.

QwQ-32B-Preview-gptqmodel-4bit-vortex-v3 — Versión cuantificada a 4 bits basada en el modelo Qwen2.5-32B, diseñada para inferencia eficiente y despliegue con recursos limitados.

InternVL2_5-78B-MPO — Se trata de una serie de modelos de lenguaje grandes multimodales de vanguardia que demuestra un rendimiento general excepcional.

DocETL — Un sistema de procesamiento de datos impulsado por LLM.

DocWrangler — Un entorno de desarrollo interactivo de código abierto para construir y optimizar pipelines de procesamiento de datos basados en LLM.

voyage-3-large — Modelo de incrustación universal multilingüe de última generación, con un rendimiento excepcional en múltiples campos.

conjuntos-de-datos-llm — Conjuntos de datos, herramientas y conceptos de alta calidad para el ajuste fino de modelos de lenguaje a gran escala.