ReDrafter

Tecnologia inovadora para acelerar a inferência de LLM em GPUs NVIDIA

Produto ComumProdutividadeGPU NVIDIAInferência LLM

ReDrafter é um método de decodificação preditiva inovador que combina um modelo de rascunho RNN com um mecanismo de atenção de árvore dinâmica, melhorando significativamente a velocidade de inferência de grandes modelos de linguagem (LLM) em GPUs NVIDIA. Essa tecnologia acelera a geração de tokens de LLM, reduzindo a latência percebida pelo usuário e diminuindo o uso de GPU e o consumo de energia. Desenvolvido pela equipe de pesquisa de aprendizado de máquina da Apple e integrado à estrutura de aceleração de inferência NVIDIA TensorRT-LLM em colaboração com a NVIDIA, o ReDrafter oferece aos desenvolvedores de aprendizado de máquina que usam GPUs NVIDIA a capacidade de gerar tokens mais rapidamente.

- Decodificação preditiva: Usa um modelo de rascunho RNN e um mecanismo de atenção de árvore dinâmica para acelerar a geração de tokens LLM.
- Melhora de desempenho: Em modelos de código aberto
o ReDrafter pode atingir uma melhoria de velocidade de até 3
5 tokens por etapa de geração.
- Integração com o TensorRT-LLM: Em colaboração com a NVIDIA
o ReDrafter foi integrado à estrutura TensorRT-LLM
melhorando a compatibilidade da estrutura com modelos complexos e métodos de decodificação.
- Redução de latência: Ao melhorar a eficiência da inferência
reduz significativamente a latência percebida pelo usuário ao usar LLMs.
- Redução de custos: Diminui o uso de GPU e o consumo de energia

O público-alvo são desenvolvedores de aprendizado de máquina
especialmente aqueles que usam GPUs NVIDIA para inferência LLM. Ao aumentar a velocidade de inferência e reduzir a latência
o ReDrafter permite que esses desenvolvedores implantem e otimizem seus aplicativos LLM mais rapidamente
melhorando a experiência do usuário e reduzindo os custos operacionais.

Use o ReDrafter para acelerar o processo de inferência de modelos de produção com bilhões de parâmetros.
Implante o ReDrafter em uma GPU NVIDIA para atingir uma melhoria de 2
7 vezes no número de tokens gerados por segundo.
Integre o ReDrafter ao TensorRT-LLM para otimizar o desempenho de inferência do LLM.

1. Instale e configure o ambiente NVIDIA TensorRT-LLM.
2. Obtenha o código-fonte aberto do ReDrafter no GitHub.
3. Integre o ReDrafter à estrutura TensorRT-LLM de acordo com as instruções da documentação.
4. Prepare ou selecione um modelo LLM de código aberto para teste.
5. Use o ReDrafter para acelerar a inferência do LLM.