Cerebras Systems, ein Pionier im Bereich der KI-Hochleistungsberechnung, hat eine bahnbrechende Lösung vorgestellt, die die KI-Inferenz revolutionieren wird. Am 27. August 2024 kündigte das Unternehmen Cerebras Inference an, den weltweit schnellsten KI-Inferenzdienst. Cerebras Inference übertrifft herkömmliche GPU-basierte Systeme bei der Leistung deutlich und bietet eine 20-fach höhere Geschwindigkeit zu extrem niedrigen Kosten. Damit setzt es neue Maßstäbe in der KI-Berechnung.
Cerebras Inference ist besonders gut geeignet für die Verarbeitung verschiedener KI-Modelle, insbesondere für die schnell wachsenden „Large Language Models“ (LLMs). Am Beispiel des neuesten Llama3.1-Modells: Die 8B-Version verarbeitet 1800 Token pro Sekunde, die 70B-Version 450 Token. Dies ist nicht nur 20-mal schneller als NVIDIA GPU-Lösungen, sondern auch deutlich günstiger. Die Preise für Cerebras Inference beginnen bei nur 10 US-Cent pro Million Token (70B-Version: 60 US-Cent), was eine 100-fache Verbesserung des Preis-Leistungs-Verhältnisses gegenüber bestehenden GPU-Produkten darstellt.
Beeindruckend ist, dass Cerebras Inference diese Geschwindigkeit bei gleichbleibend branchenführender Genauigkeit erreicht. Im Gegensatz zu anderen Lösungen, die Geschwindigkeit priorisieren, führt Cerebras die Inferenz stets im 16-Bit-Bereich durch, um sicherzustellen, dass die Leistungssteigerung nicht auf Kosten der Qualität der KI-Modellausgabe geht. Laut Miha Hirš-Smith, CEO von Artificial Analysis, hat Cerebras mit Metas Llama3.1-Modell eine neue Bestmarke mit über 1800 ausgegebenen Tokens pro Sekunde erreicht.
KI-Inferenz ist der am schnellsten wachsende Teil der KI-Berechnung und macht etwa 40 % des gesamten KI-Hardwaremarktes aus. Hochgeschwindigkeits-KI-Inferenz, wie sie von Cerebras angeboten wird, eröffnet, ähnlich wie das Aufkommen des Breitband-Internets, neue Möglichkeiten und läutet ein neues Zeitalter für KI-Anwendungen ein. Entwickler können Cerebras Inference nutzen, um die nächste Generation von KI-Anwendungen zu entwickeln, die komplexe Echtzeit-Leistung erfordern, wie z. B. intelligente Agenten und intelligente Systeme.
Cerebras Inference bietet drei preisgünstige Service-Stufen: kostenlos, Entwickler und Unternehmen. Die kostenlose Stufe bietet API-Zugriff mit großzügigen Nutzungsbeschränkungen und ist ideal für eine breite Benutzerbasis. Die Entwicklerstufe bietet flexible serverlose Bereitstellungsoptionen, während die Unternehmensebene maßgeschneiderte Services und Support für Organisationen mit kontinuierlicher Auslastung bietet.
Die Kerntechnologie von Cerebras Inference ist das Cerebras CS-3-System, angetrieben von der branchenführenden Wafer Scale Engine 3 (WSE-3). Dieser KI-Prozessor ist in Bezug auf Größe und Geschwindigkeit unübertroffen und bietet über 7000-mal mehr Speicherbandbreite als die NVIDIA H100.
Cerebras Systems ist nicht nur führend im Bereich der KI-Berechnung, sondern spielt auch in verschiedenen Branchen wie Medizin, Energie, Regierung, wissenschaftliche Berechnungen und Finanzdienstleistungen eine wichtige Rolle. Durch kontinuierliche technologische Innovation unterstützt Cerebras Organisationen in verschiedenen Bereichen bei der Bewältigung komplexer KI-Herausforderungen.
Wichtigste Punkte:
🌟 Cerebras Systems bietet eine 20-fach schnellere Leistung bei gleichzeitig günstigeren Preisen und läutet ein neues Zeitalter der KI-Inferenz ein.
💡 Unterstützt verschiedene KI-Modelle, insbesondere Large Language Models (LLMs).
🚀 Bietet drei Service-Stufen für Entwickler und Unternehmen.