Cerebras lanza el servicio de inferencia de IA "más rápido del mundo", desafiando el dominio de Nvidia

Cerebras Systems Inc., una empresa emergente de computación de inteligencia artificial, ha lanzado oficialmente lo que afirma es el "servicio de inferencia de IA más rápido del mundo", un desafío directo al gigante de la industria Nvidia Corp. Andrew Feldman, CEO de Cerebras, afirma que el nuevo servicio está diseñado para realizar tareas de inferencia de IA a una velocidad y un costo más bajos, respondiendo a la creciente demanda del mercado de soluciones de inferencia eficientes.

Chip

El servicio de "inferencia de alta velocidad" de Cerebras se basa en su potente procesador WSE-3. Este procesador cuenta con más de 900.000 núcleos de computación y 44 GB de memoria integrada, 52 veces más núcleos que una sola unidad de procesamiento gráfico Nvidia H100. Cerebras afirma que su servicio de inferencia puede alcanzar una velocidad de 1.000 tokens por segundo, 20 veces más rápido que los servicios en la nube similares que utilizan las GPU más potentes de Nvidia. Aún más notable es su precio inicial de tan solo 10 centavos de dólar por millón de tokens, supuestamente 100 veces más rentable que las cargas de trabajo de inferencia de IA existentes.

El servicio de inferencia de Cerebras ofrece tres niveles de acceso: servicio gratuito, nivel para desarrolladores y nivel empresarial. El nivel para desarrolladores, accesible a través de puntos finales de API, ofrece un precio de 10 centavos de dólar por millón de tokens para el modelo Llama3.18B y 60 centavos de dólar para el modelo Llama3.170B. El nivel empresarial ofrece más opciones de personalización y soporte especializado, ideal para cargas de trabajo continuas.

Varias instituciones de renombre se han convertido en clientes tempranos de Cerebras, incluyendo GlaxoSmithKline, Perplexity AI Inc. y Meter Inc. El Dr. Andrew Ng, fundador de DeepLearning AI Inc., elogió la velocidad de la inferencia de Cerebras, considerando que es particularmente útil para los flujos de trabajo de IA de agentes que requieren indicaciones repetidas a modelos de lenguaje grandes.

Además del servicio de inferencia, Cerebras también anunció varias asociaciones estratégicas para ofrecer a los clientes un conjunto completo de herramientas de desarrollo de IA. Entre los socios se encuentran LangChain, LlamaIndex, Docker Inc., Weights & Biases Inc. y AgentOps Inc. Además, la API de inferencia de Cerebras es totalmente compatible con la API de finalización de chat de OpenAI, lo que significa que las aplicaciones existentes pueden migrar fácilmente a su plataforma.

Noticias de IA

Cerebras lanza el servicio de inferencia de IA "más rápido del mundo", desafiando el dominio de Nvidia

AIbase基地