A Cerebras Systems Inc., uma startup de computação de inteligência artificial, lançou oficialmente o que chama de "o serviço de inferência de IA mais rápido do mundo", um desafio direto à gigante do setor, Nvidia Corp. Andrew Feldman, CEO da Cerebras, afirma que o novo serviço visa concluir tarefas de inferência de IA com maior velocidade e menor custo, respondendo à crescente demanda do mercado por soluções de inferência eficientes.

Chip

O serviço de "inferência de alta velocidade" da Cerebras é baseado em seu poderoso processador WSE-3. Este processador possui mais de 900.000 núcleos de computação e 44 GB de memória embarcada, com um número de núcleos 52 vezes maior do que uma única unidade de processamento gráfico Nvidia H100. A Cerebras afirma que seu serviço de inferência pode atingir a velocidade de 1.000 tokens por segundo, 20 vezes mais rápido do que serviços em nuvem semelhantes que usam as GPUs mais poderosas da Nvidia. Ainda mais impressionante é que o preço inicial do serviço é de apenas US$ 0,10 por milhão de tokens, alegadamente 100 vezes mais econômico do que as cargas de trabalho de inferência de IA existentes.

O serviço de inferência da Cerebras oferece três níveis de acesso: gratuito, para desenvolvedores e empresarial. O nível para desenvolvedores, acessível por meio de endpoints de API, oferece um preço de US$ 0,10 por milhão de tokens para o modelo Llama3.18B e US$ 0,60 para o modelo Llama3.170B. O nível empresarial oferece mais opções de personalização e suporte especializado, ideal para cargas de trabalho contínuas.

Várias instituições de renome já se tornaram clientes iniciais da Cerebras, incluindo GlaxoSmithKline, Perplexity AI Inc. e Meter Inc. O Dr. Andrew Ng, fundador da DeepLearning AI Inc., elogiou a capacidade de inferência rápida da Cerebras, considerando-a particularmente útil para fluxos de trabalho de IA de agente que exigem prompts repetidos em grandes modelos de linguagem.

Além do serviço de inferência, a Cerebras também anunciou várias parcerias estratégicas para fornecer aos clientes um conjunto completo de ferramentas de desenvolvimento de IA. Os parceiros incluem LangChain, LlamaIndex, Docker Inc., Weights & Biases Inc. e AgentOps Inc. Além disso, a API de inferência da Cerebras é totalmente compatível com a API de conclusão de bate-papo da OpenAI, o que significa que aplicativos existentes podem ser facilmente migrados para sua plataforma.