Das offizielle WeChat-Konto von SiliconCloud gibt bekannt, dass ab sofort die Batch-Inferenz (BatchInference) für die DeepSeek-R1- und V3-APIs der SiliconCloud-Plattform unterstützt wird.
Benutzer senden Anfragen über die Batch-API an SiliconCloud und sind nicht mehr durch die Echtzeit-Inferenzrate eingeschränkt. Die Aufgaben werden voraussichtlich innerhalb von 24 Stunden abgeschlossen. Im Vergleich zur Echtzeit-Inferenz reduziert sich der Preis für die DeepSeek-V3 Batch-Inferenz um 50 %. Vom 11. März bis zum 18. März reduziert sich der Preis für die DeepSeek-R1 Batch-Inferenz sogar um 75 % auf 1 Yuan pro Million Tokens (Eingabe) und 4 Yuan pro Million Tokens (Ausgabe).
Die Batch-Inferenz ermöglicht Benutzern eine effizientere Verarbeitung von Aufgaben mit großen Datenmengen, wie z. B. die Erstellung von Berichten und die Datenbereinigung, und bietet gleichzeitig kostengünstigere DeepSeek-R1- und V3-API-Dienste. Sie eignet sich ideal für Szenarien, die keine Echtzeit-Reaktion erfordern, wie z. B. Datenanalyse und die Bewertung von Modellleistungen.