Star-Attention
Técnica de inferencia eficiente para modelos de lenguaje grandes y secuencias largas
Producto ComúnProgramaciónNVIDIAModelos de lenguaje grandes
Star-Attention es un nuevo mecanismo de atención dispersa por bloques propuesto por NVIDIA, diseñado para mejorar la eficiencia de la inferencia en modelos de lenguaje grandes (LLM) basados en Transformer con secuencias largas. Esta técnica, a través de un proceso de dos etapas, mejora significativamente la velocidad de inferencia manteniendo una precisión del 95-100%. Es compatible con la mayoría de los LLM basados en Transformer, sin necesidad de entrenamiento o ajuste adicional, y puede combinarse con otros métodos de optimización como Flash Attention y la compresión de caché KV para un mayor rendimiento.
Star-Attention Situación del tráfico más reciente
Total de visitas mensuales
474564576
Tasa de rebote
36.20%
Páginas promedio por visita
6.1
Duración promedio de la visita
00:06:34