A Pruna AI, uma startup europeia, concentra-se no desenvolvimento de algoritmos de compressão para modelos de IA. Recentemente, a empresa anunciou a disponibilização em código aberto de sua estrutura de otimização, para ajudar os desenvolvedores a comprimir modelos de IA de forma mais eficiente.
A estrutura desenvolvida pela Pruna AI combina vários métodos eficientes, incluindo cache, poda, quantização e destilação, com o objetivo de melhorar o desempenho dos modelos de IA. A estrutura não apenas padroniza o salvamento e carregamento de modelos comprimidos, mas também permite a avaliação dos modelos comprimidos para determinar se a qualidade diminuiu significativamente, além de medir a melhoria de desempenho proporcionada pela compressão.
John Rachwan, cofundador e CTO da Pruna AI, afirma: "Nossa estrutura é semelhante à padronização do Hugging Face para transformers e diffusers; oferecemos uma maneira unificada de chamar e usar vários métodos eficientes." Grandes empresas como a OpenAI já empregam vários métodos de compressão em seus modelos, como o uso da técnica de destilação para criar versões mais rápidas de seus modelos principais.
A destilação é uma técnica de extração de conhecimento por meio de um modelo "professor-aluno". Os desenvolvedores enviam solicitações ao modelo professor e registram a saída. Essas saídas são então usadas para treinar o modelo aluno, permitindo que ele aproxime o comportamento do modelo professor. Rachwan observa que, embora muitas grandes empresas tendam a construir suas próprias ferramentas de compressão, na comunidade de código aberto, geralmente só se encontram soluções baseadas em um único método. A Pruna AI oferece uma ferramenta que integra vários métodos, simplificando enormemente o processo de uso.
Atualmente, a estrutura da Pruna AI suporta vários tipos de modelos, incluindo modelos de linguagem grandes, modelos de difusão, modelos de reconhecimento de voz e modelos de visão computacional. No entanto, a empresa está atualmente focada principalmente na otimização de modelos de geração de imagens e vídeos. Empresas como Scenario e PhotoRoom já estão utilizando os serviços da Pruna AI.
Além da versão de código aberto, a Pruna AI lançou uma versão empresarial que inclui recursos de otimização avançados e um agente de otimização. Rachwan revela: "O recurso mais emocionante que estamos prestes a lançar é o agente de compressão. Os usuários simplesmente fornecem o modelo e definem os requisitos de velocidade e precisão, e o agente encontrará automaticamente a melhor combinação de compressão."
A Pruna AI cobra por hora, semelhante à forma como os usuários alugam GPUs em serviços em nuvem. Ao usar modelos otimizados, as empresas podem economizar muito em custos de inferência. Por exemplo, a Pruna AI conseguiu reduzir o tamanho de um modelo Llama em oito vezes, com quase nenhuma perda de precisão. A empresa espera que os clientes vejam sua estrutura de compressão como um investimento que, no final, trará retorno.
Recentemente, a Pruna AI concluiu uma rodada de financiamento inicial de US$ 6,5 milhões, com investidores incluindo EQT Ventures, Daphni, Motier Ventures e Kima Ventures.
Projeto: https://github.com/PrunaAI/pruna
Destaques:
🌟 A Pruna AI lança uma estrutura de otimização de código aberto, combinando vários métodos de compressão para melhorar o desempenho dos modelos de IA.
🤖 Grandes empresas costumam usar técnicas como destilação. A Pruna AI oferece uma ferramenta que integra vários métodos, simplificando o processo de uso.
💰 A versão empresarial oferece recursos avançados, ajudando os usuários a comprimir e melhorar o desempenho dos modelos, mantendo a precisão.