MInference 1.0
Acelera el preprocesamiento de modelos de lenguaje de gran tamaño con contextos largos.
Producto ComúnProgramaciónProcesamiento del Lenguaje NaturalAprendizaje Automático
MInference 1.0 es un método de cálculo disperso diseñado para acelerar la fase de prellenado del procesamiento de secuencias largas. A través de la identificación de tres patrones únicos en la matriz de atención de contexto largo, implementa un método de atención dispersa dinámica para modelos de lenguaje de gran tamaño (LLM) con contextos largos, acelerando la fase de prellenado de prompts de 1M de tokens mientras mantiene las capacidades de los LLM, especialmente la capacidad de recuperación.
MInference 1.0 Situación del tráfico más reciente
Total de visitas mensuales
672
Tasa de rebote
58.31%
Páginas promedio por visita
2.2
Duración promedio de la visita
00:01:19