Pruna AI es una startup europea especializada en el desarrollo de algoritmos de compresión para modelos de IA. Recientemente, la compañía anunció la publicación de código abierto de su framework de optimización para ayudar a los desarrolladores a comprimir modelos de IA de manera más eficiente.
El framework desarrollado por Pruna AI combina varios métodos de eficiencia, incluyendo caché, poda, cuantificación y destilación, con el objetivo de mejorar el rendimiento de los modelos de IA. No solo estandariza el guardado y la carga de modelos comprimidos, sino que también permite evaluar los modelos comprimidos para determinar si la calidad ha disminuido significativamente, al mismo tiempo que mide la mejora del rendimiento gracias a la compresión.
John Rachwan, cofundador y director de tecnología de Pruna AI, afirma: "Nuestro framework es similar a la estandarización de Hugging Face para transformers y diffusers; ofrecemos una forma unificada de llamar y usar diversos métodos de eficiencia". Grandes empresas como OpenAI ya aplican varios métodos de compresión en sus modelos, como la destilación para crear versiones más rápidas de sus modelos insignia.
La destilación es una técnica de extracción de conocimiento mediante un modelo "maestro-alumno". Los desarrolladores envían solicitudes al modelo maestro y registran la salida. Estas salidas se utilizan luego para entrenar el modelo alumno, permitiéndole aproximarse al comportamiento del modelo maestro. Rachwan señala que, aunque muchas grandes empresas tienden a construir sus propias herramientas de compresión, en la comunidad de código abierto a menudo solo se encuentran soluciones basadas en un solo método. Pruna AI proporciona una herramienta que integra varios métodos, simplificando enormemente el proceso de uso.
Actualmente, el framework de Pruna AI admite varios tipos de modelos, incluyendo modelos de lenguaje grandes, modelos de difusión, modelos de reconocimiento de voz y modelos de visión artificial. Sin embargo, la compañía se centra principalmente en la optimización de modelos de generación de imágenes y vídeo. Empresas como Scenario y PhotoRoom ya utilizan los servicios de Pruna AI.
Además de la versión de código abierto, Pruna AI ofrece una versión empresarial que incluye funciones de optimización avanzadas y un agente de optimización. Rachwan revela: "La función más emocionante que lanzaremos próximamente es el agente de compresión; los usuarios solo necesitan proporcionar el modelo y establecer los requisitos de velocidad y precisión, y el agente encontrará automáticamente la mejor combinación de compresión".
Pruna AI cobra por hora, de forma similar a como los usuarios alquilan GPU en servicios en la nube. Al utilizar modelos optimizados, las empresas pueden ahorrar costes significativos en la inferencia. Por ejemplo, Pruna AI logró reducir el tamaño de un modelo Llama ocho veces sin apenas pérdida de precisión. La compañía espera que los clientes consideren su framework de compresión como una inversión que finalmente genera beneficios.
Recientemente, Pruna AI cerró una ronda semilla de 6,5 millones de dólares, con la participación de inversores como EQT Ventures, Daphni, Motier Ventures y Kima Ventures.
Proyecto: https://github.com/PrunaAI/pruna
Puntos clave:
🌟 Pruna AI lanza un framework de optimización de código abierto que combina varios métodos de compresión para mejorar el rendimiento de los modelos de IA.
🤖 Las grandes empresas suelen utilizar técnicas como la destilación, mientras que Pruna AI ofrece una herramienta que integra varios métodos, simplificando el proceso de uso.
💰 La versión empresarial admite funciones avanzadas, ayudando a los usuarios a lograr la compresión del modelo y la mejora del rendimiento manteniendo la precisión.