ReDrafter

Tecnología innovadora para acelerar la inferencia de LLM en GPU NVIDIA

Producto ComúnProductividadGPU NVIDIAInferencia LLM

ReDrafter es un novedoso método de decodificación predictiva que combina un modelo de borrador RNN y un mecanismo de atención de árbol dinámico para mejorar significativamente la velocidad de inferencia de los modelos lingüísticos grandes (LLM) en las GPU NVIDIA. Esta tecnología acelera la generación de tokens de LLM, reduciendo la latencia percibida por el usuario, a la vez que disminuye el consumo de GPU y energía. Desarrollado por el equipo de investigación de aprendizaje automático de Apple y en colaboración con NVIDIA para su integración en el marco de aceleración de inferencia NVIDIA TensorRT-LLM, ReDrafter ofrece a los desarrolladores de aprendizaje automático que utilizan GPU NVIDIA una capacidad de generación de tokens más rápida.

- Decodificación predictiva: utiliza un modelo de borrador RNN y un mecanismo de atención de árbol dinámico para acelerar la generación de tokens LLM.
- Mejora del rendimiento: en modelos de código abierto
ReDrafter puede lograr una mejora de velocidad de hasta 3
5 tokens por paso de generación.
- Integración con TensorRT-LLM: en colaboración con NVIDIA
ReDrafter se integra en el marco TensorRT-LLM
mejorando la compatibilidad del marco con modelos y métodos de decodificación complejos.
- Reducción de la latencia: al mejorar la eficiencia de la inferencia
se reduce significativamente la latencia que experimentan los usuarios al utilizar LLM.
- Reducción de costos: disminuye el uso de GPU y el consumo de energía

El público objetivo son los desarrolladores de aprendizaje automático
especialmente aquellos que utilizan GPU NVIDIA para la inferencia LLM. ReDrafter
al aumentar la velocidad de inferencia y reducir la latencia
permite a estos desarrolladores implementar y optimizar sus aplicaciones LLM más rápidamente
mejorando la experiencia del usuario y reduciendo los costos operativos.

Utilizar ReDrafter para acelerar el proceso de inferencia de modelos de producción a escala de miles de millones de parámetros.
Implementar ReDrafter en una GPU NVIDIA para lograr una mejora de 2
7 veces en el número de tokens generados por segundo.
Integrar ReDrafter en TensorRT-LLM para optimizar el rendimiento de inferencia del LLM.

1. Instale y configure el entorno NVIDIA TensorRT-LLM.
2. Obtenga el código fuente de ReDrafter desde GitHub.
3. Integre ReDrafter en el marco TensorRT-LLM siguiendo las instrucciones de la documentación.
4. Prepare o seleccione un modelo LLM de código abierto para probar.
5. Utilice ReDrafter para acelerar la inferencia del LLM.

Abrir sitio web

ReDrafter Situación del tráfico más reciente

Total de visitas mensuales

197433

Tasa de rebote

73.71%

Páginas promedio por visita

2.1

Duración promedio de la visita

00:00:47

ReDrafter Tendencia de visitas

ReDrafter Distribución geográfica de las visitas

ReDrafter Fuentes de tráfico

ReDrafter Alternativas

ReDrafter — Tecnología innovadora para acelerar la inferencia de LLM en GPU NVIDIA

Productividad

•GPU NVIDIA•Inferencia LLM

102

AIKit — Solución integral de código abierto para alojar, implementar, construir y ajustar modelos de lenguaje grandes.

Programación

•Código abierto•Modelos de lenguaje grandes

180

fluidstack.io — Plataforma líder de GPU en la nube que ofrece escalabilidad ilimitada para el entrenamiento de IA y LLM.