O WebLLM é um motor de inferência de modelo de linguagem de alto desempenho em navegador, que utiliza o WebGPU para aceleração de hardware, permitindo que poderosos modelos de linguagem sejam executados diretamente no navegador da web, sem necessidade de processamento no lado do servidor. Este projeto visa integrar modelos de linguagem grandes (LLMs) diretamente no cliente, para reduzir custos, melhorar a personalização e proteger a privacidade. Ele suporta vários modelos e é compatível com a API OpenAI, sendo fácil de integrar a projetos, suportando interação em tempo real e processamento em fluxo, sendo ideal para construir assistentes de IA personalizados.