A Cerebras Systems, pioneira em computação AI de alto desempenho, lançou uma solução inovadora que revolucionará a inferência de IA. Em 27 de agosto de 2024, a empresa anunciou o Cerebras Inference, o serviço de inferência de IA mais rápido do mundo. Os indicadores de desempenho do Cerebras Inference deixam os sistemas tradicionais baseados em GPU para trás, oferecendo uma velocidade 20 vezes maior a um custo muito baixo, estabelecendo um novo padrão para a computação de IA.
O Cerebras Inference é especialmente adequado para lidar com diversos modelos de IA, especialmente os modelos de linguagem grandes (LLMs) em rápido desenvolvimento. Como exemplo, com o modelo Llama 3.1 mais recente, a versão de 8B processa 1800 tokens por segundo, enquanto a versão de 70B processa 450 tokens por segundo. Essa velocidade não é apenas 20 vezes superior às soluções de GPU da NVIDIA, mas também é muito mais competitiva em termos de preço. O preço do Cerebras Inference começa em apenas US$ 0,10 por milhão de tokens, e US$ 0,60 para a versão de 70B, representando uma melhoria de 100 vezes na relação custo-benefício em comparação com os produtos de GPU existentes.
O que é impressionante é que o Cerebras Inference alcança essa velocidade mantendo a precisão líder do setor. Diferentemente de outras soluções que priorizam a velocidade, o Cerebras realiza inferências sempre no domínio de 16 bits, garantindo que o aumento de desempenho não se dê em detrimento da qualidade da saída do modelo de IA. Miha Hirsh-Smith, CEO da empresa de análise, afirmou que a Cerebras atingiu um novo recorde, ultrapassando a velocidade de 1.800 tokens de saída por segundo no modelo Llama 3.1 do Meta.
A inferência de IA é a parte de crescimento mais rápido da computação de IA, representando cerca de 40% de todo o mercado de hardware de IA. A inferência de IA de alta velocidade, como a oferecida pela Cerebras, é semelhante ao surgimento da internet de banda larga, abrindo novas oportunidades e inaugurando uma nova era para os aplicativos de IA. Os desenvolvedores podem usar o Cerebras Inference para construir aplicativos de IA de próxima geração que exigem desempenho complexo em tempo real, como agentes inteligentes e sistemas inteligentes.
O Cerebras Inference oferece três níveis de serviço com preços acessíveis: nível gratuito, nível desenvolvedor e nível empresarial. O nível gratuito oferece acesso à API com limites de uso generosos, ideal para uma ampla gama de usuários. O nível desenvolvedor oferece opções flexíveis de implantação sem servidor, enquanto o nível empresarial oferece serviços e suporte personalizados para organizações com cargas de trabalho contínuas.
Em termos de tecnologia central, o Cerebras Inference utiliza o sistema Cerebras CS-3, impulsionado pelo Wafer Scale Engine 3 (WSE-3), líder do setor. Esse processador de IA é incomparável em escala e velocidade, oferecendo mais de 7000 vezes a largura de banda de memória de uma NVIDIA H100.
A Cerebras Systems não apenas lidera o caminho na computação de IA, mas também desempenha um papel importante em vários setores, incluindo saúde, energia, governo, computação científica e serviços financeiros. Por meio da contínua inovação tecnológica, a Cerebras está ajudando organizações em vários setores a lidar com os desafios complexos da IA.
Destaques:
🌟 O serviço Cerebras Systems oferece uma velocidade 20 vezes maior e um preço mais competitivo, inaugurando uma nova era para a inferência de IA.
💡 Suporta todos os tipos de modelos de IA, com desempenho excepcional em modelos de linguagem grandes (LLMs).
🚀 Oferece três níveis de serviço, permitindo que desenvolvedores e empresas escolham a opção mais adequada.