A Stability AI é conhecida por seu modelo de geração de imagens a partir de texto, Stable Diffusion. Recentemente, a empresa se uniu à Arm, gigante global de semicondutores, para trazer a capacidade de inteligência artificial generativa de áudio para dispositivos móveis. Essa parceria permite que o modelo Stable Audio Open rode completamente na CPU Arm, permitindo que os usuários gerem efeitos sonoros, amostras de áudio e elementos de produção rapidamente em seus dispositivos, sem necessidade de conexão com a internet.
A Stability AI afirma que, com a crescente adoção da inteligência artificial generativa por empresas e criadores profissionais, garantir que nossos modelos e fluxos de trabalho sejam facilmente acessíveis em todos os campos criativos é crucial. Isso não apenas aumenta a eficiência criativa, mas também ajuda a integrar perfeitamente essas tecnologias nos fluxos de trabalho de produção de mídia visual.
Para atender à crescente demanda, a empresa visa melhorar a eficiência de seus modelos em dispositivos de borda. Ao otimizar o modelo Stable Audio Open para dispositivos móveis, os testes iniciais levaram 240 segundos para gerar áudio em um dispositivo com CPU Arm. Através da destilação do modelo e da utilização da pilha de software da Arm, especialmente o núcleo de multiplicação de matriz int8 do KleidiAI via XNNPack, a empresa conseguiu reduzir o tempo de geração de um fragmento de áudio de 11 segundos para 8 segundos, representando uma melhoria de 30 vezes na velocidade de resposta.
É importante notar que os usuários precisam de um dispositivo móvel compatível para usar este recurso. Considerando que a maioria dos smartphones atuais possui CPUs com arquitetura Arm, essa tecnologia se torna acessível a uma ampla gama de usuários. No futuro, a Stability AI planeja trazer todos os seus modelos nas áreas de imagem, vídeo e 3D para dispositivos de borda, visando revolucionar a criação de mídia visual em dispositivos móveis.
Destaques:
🌟 A Stability AI, em parceria com a Arm, lança tecnologia de geração de áudio offline em dispositivos móveis.
⚡ Através da destilação do modelo e otimização de software, o tempo de geração de áudio foi reduzido de 240 segundos para 8 segundos, uma melhoria de 30 vezes na eficiência.
📱 Essa tecnologia funciona na maioria dos smartphones com CPU Arm, e será expandida para mais áreas de criação de mídia no futuro.