Cerebras Systems, pionero en computación AI de alto rendimiento, ha lanzado una solución innovadora que revolucionará la inferencia de IA. El 27 de agosto de 2024, la compañía anunció el lanzamiento de Cerebras Inference, el servicio de inferencia de IA más rápido del mundo. Los indicadores de rendimiento de Cerebras Inference superan con creces a los sistemas tradicionales basados en GPU, ofreciendo una velocidad 20 veces mayor a un costo extremadamente bajo, estableciendo un nuevo estándar en la computación AI.
Cerebras Inference es especialmente adecuado para procesar una variedad de modelos de IA, especialmente los "modelos de lenguaje grandes" (LLM) en rápido desarrollo. Como ejemplo, con el último modelo Llama 3.1, la versión de 8B puede procesar 1800 tokens por segundo, mientras que la versión de 70B procesa 450 tokens por segundo. Esta velocidad no solo es 20 veces superior a las soluciones de GPU de NVIDIA, sino que también es mucho más competitiva en precio. El precio de Cerebras Inference comienza en solo 10 centavos de dólar por millón de tokens, y 60 centavos para la versión de 70B, ofreciendo una relación calidad-precio 100 veces mejor que los productos GPU existentes.
Lo impresionante es que Cerebras Inference logra esta velocidad manteniendo la precisión líder en la industria. A diferencia de otras soluciones que priorizan la velocidad, Cerebras realiza la inferencia siempre en el dominio de 16 bits, garantizando que el aumento de rendimiento no se produzca a costa de la calidad de la salida del modelo de IA. Miha Hirsh-Smith, CEO de la empresa de análisis, afirmó que Cerebras ha batido un nuevo récord al superar los 1800 tokens de salida por segundo en el modelo Llama 3.1 de Meta.
La inferencia de IA es el segmento de más rápido crecimiento en la computación AI, representando aproximadamente el 40% del mercado total de hardware de IA. La inferencia de IA de alta velocidad, como la ofrecida por Cerebras, es similar a la aparición de Internet de banda ancha, abriendo nuevas oportunidades y dando paso a una nueva era para las aplicaciones de IA. Los desarrolladores pueden utilizar Cerebras Inference para construir aplicaciones de IA de próxima generación que requieren un rendimiento complejo en tiempo real, como agentes inteligentes y sistemas inteligentes.
Cerebras Inference ofrece tres niveles de servicio con precios asequibles: nivel gratuito, nivel desarrollador y nivel empresarial. El nivel gratuito proporciona acceso a la API con generosas limitaciones de uso, ideal para una amplia gama de usuarios. El nivel desarrollador ofrece opciones flexibles de implementación sin servidor, mientras que el nivel empresarial proporciona servicios y soporte personalizados para organizaciones con cargas de trabajo continuas.
En cuanto a la tecnología subyacente, Cerebras Inference utiliza el sistema Cerebras CS-3, impulsado por el Wafer Scale Engine 3 (WSE-3), líder en la industria. Este procesador de IA es inigualable en escala y velocidad, ofreciendo más de 7000 veces el ancho de banda de memoria de una NVIDIA H100.
Cerebras Systems no solo lidera la innovación en el campo de la computación AI, sino que también desempeña un papel importante en diversos sectores, como la sanidad, la energía, el gobierno, la computación científica y los servicios financieros. A través de la continua innovación tecnológica, Cerebras está ayudando a las organizaciones de todos los sectores a abordar los complejos desafíos de la IA.
Puntos clave:
🌟 Cerebras Systems ofrece una velocidad 20 veces superior y un precio más competitivo, inaugurando una nueva era en la inferencia de IA.
💡 Admite todo tipo de modelos de IA, con un rendimiento excepcional en los modelos de lenguaje grandes (LLM).
🚀 Ofrece tres niveles de servicio para que desarrolladores y empresas puedan elegir la opción que mejor se adapte a sus necesidades.