A Pruna é uma estrutura de otimização de modelos projetada para desenvolvedores, usando uma série de algoritmos de compressão, como quantização, poda e compilação, para tornar os modelos de aprendizado de máquina mais rápidos, menores e com menor custo computacional durante a inferência. O produto é adequado para vários tipos de modelos, incluindo LLMs e transformadores visuais, e suporta várias plataformas, incluindo Linux, MacOS e Windows. A Pruna também oferece a versão empresarial Pruna Pro, desbloqueando recursos de otimização avançados e suporte prioritário para ajudar os usuários a melhorar a eficiência em aplicações reais.