MInference
Acelera o processo de inferência de modelos de linguagem de grande porte com contexto longo.
Novo Produto PremiumProgramaçãoModelos de Linguagem de Grande PorteAceleração de Inferência
MInference é uma estrutura de aceleração de inferência para modelos de linguagem de grande porte (LLMs) com contexto longo. Ela aproveita as características de esparsidade dinâmica nos mecanismos de atenção dos LLMs, por meio de reconhecimento de padrões estáticos e aproximação de indexação esparsa online, melhorando significativamente a velocidade de pré-preenchimento (pre-filling). Isso resulta em uma aceleração de 10 vezes no processamento de 1M de contexto em uma única GPU A100, mantendo a precisão da inferência.
MInference Situação do Tráfego Mais Recente
Total de Visitas Mensais
474564576
Taxa de Rejeição
36.20%
Média de Páginas por Visita
6.1
Duração Média da Visita
00:06:34