ReDrafter
Tecnologia inovadora para acelerar a inferência de LLM em GPUs NVIDIA
Produto ComumProdutividadeGPU NVIDIAInferência LLM
ReDrafter é um método de decodificação preditiva inovador que combina um modelo de rascunho RNN com um mecanismo de atenção de árvore dinâmica, melhorando significativamente a velocidade de inferência de grandes modelos de linguagem (LLM) em GPUs NVIDIA. Essa tecnologia acelera a geração de tokens de LLM, reduzindo a latência percebida pelo usuário e diminuindo o uso de GPU e o consumo de energia. Desenvolvido pela equipe de pesquisa de aprendizado de máquina da Apple e integrado à estrutura de aceleração de inferência NVIDIA TensorRT-LLM em colaboração com a NVIDIA, o ReDrafter oferece aos desenvolvedores de aprendizado de máquina que usam GPUs NVIDIA a capacidade de gerar tokens mais rapidamente.
ReDrafter Situação do Tráfego Mais Recente
Total de Visitas Mensais
197433
Taxa de Rejeição
73.71%
Média de Páginas por Visita
2.1
Duração Média da Visita
00:00:47