Das KI-Computing-Startup Cerebras Systems Inc. hat seinen angeblich „schnellsten KI-Inferenzdienst der Welt“ auf den Markt gebracht – eine direkte Herausforderung für Branchenriesen wie Nvidia Corp. Cerebras-CEO Andrew Feldman erklärte, der neue Dienst ziele darauf ab, KI-Inferenzaufgaben schneller und kostengünstiger zu erledigen und die wachsende Nachfrage nach effizienten Inferenzlösungen zu bedienen.

Chip

Cerebras' „High-Speed-Inferenz“-Dienst basiert auf seinem leistungsstarken WSE-3-Prozessor. Dieser Prozessor verfügt über über 900.000 Rechenkerne und 44 GB Onboard-Speicher – 52-mal mehr Kerne als eine einzelne Nvidia H100-GPU. Cerebras behauptet, sein Inferenzdienst könne bis zu 1.000 Token pro Sekunde verarbeiten, 20-mal schneller als vergleichbare Cloud-Dienste mit den leistungsstärksten Nvidia-GPUs. Besonders bemerkenswert ist der Einstiegspreis von nur 10 Cent pro Million Token, der angeblich eine 100-mal höhere Kosten-Nutzen-Relation als bei bestehenden KI-Inferenz-Workloads bietet.

Der Cerebras-Inferenzdienst bietet drei Zugriffsebenen: kostenloser Service, Entwicklerebene und Unternehmensebene. Die Entwicklerebene bietet über API-Endpunkte Zugriff und kostet 10 Cent pro Million Token für das Llama3.18B-Modell und 60 Cent für das Llama3.170B-Modell. Die Unternehmensebene bietet mehr Anpassungsoptionen und dedizierten Support für kontinuierliche Workloads.

Mehrere namhafte Unternehmen gehören zu den frühen Kunden von Cerebras, darunter GlaxoSmithKline, Perplexity AI Inc. und Meter Inc. Dr. Andrew Ng, Gründer von DeepLearning AI Inc., lobte die Geschwindigkeit des Cerebras-Inferenzdienstes und betonte dessen besondere Nützlichkeit für Agenten-KI-Workflows, die große Sprachmodelle wiederholt abfragen.

Neben dem Inferenzdienst kündigte Cerebras auch mehrere strategische Partnerschaften an, um Kunden umfassende KI-Entwicklungstools anzubieten. Zu den Partnern gehören LangChain, LlamaIndex, Docker Inc., Weights & Biases Inc. und AgentOps Inc. Darüber hinaus ist die Cerebras-Inferenz-API vollständig kompatibel mit der Chat-Completion-API von OpenAI, sodass bestehende Anwendungen problemlos auf die Plattform migriert werden können.