Flash-Decoding
Flash-Decoding para inferência de contexto longo
Seleção InternacionalProgramaçãoInferênciaMecanismo de Atenção
Flash-Decoding é uma técnica para inferência de contexto longo que acelera significativamente o mecanismo de atenção durante a inferência, resultando em um aumento de 8 vezes na velocidade de geração. A técnica mantém a saída de atenção correta carregando em paralelo as chaves e os valores, e então reescalonando e combinando os resultados separadamente. Isso permite uma inferência mais rápida. O Flash-Decoding é adequado para modelos de linguagem grandes e pode lidar com contextos longos, como documentos longos, diálogos extensos ou bases de código inteiras. O Flash-Decoding já está disponível nos pacotes FlashAttention e xFormers, podendo selecionar automaticamente o método Flash-Decoding ou FlashAttention, ou usar o eficiente núcleo Triton.
Flash-Decoding Situação do Tráfego Mais Recente
Total de Visitas Mensais
1045269
Taxa de Rejeição
41.72%
Média de Páginas por Visita
3.3
Duração Média da Visita
00:02:41