Nos últimos anos, os modelos de linguagem grandes têm tido um impacto cada vez maior na mudança das vidas e carreiras das pessoas. A biblioteca de aprendizado de máquina de código aberto vLLM melhora a velocidade de inferência de modelos de linguagem grandes por meio do algoritmo PagedAttention, gerenciando eficientemente a memória cache de chave-valor e aumentando a taxa de transferência. Equipado com o PagedAttention, o vLLM atinge o melhor nível de serviço LLM sem alterar a arquitetura do modelo. Os pesquisadores descobriram que o vLLM aumentou a taxa de transferência em LLMs conhecidos em 2 a 4 vezes em comparação com outros sistemas.
Biblioteca de aprendizado de máquina de código aberto vLLM: Aceleração da inferência de modelos de linguagem grandes

站长之家
Este artigo é do AIbase Daily
Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.