Die SiliconCloud Plattform präsentiert ab sofort die Batch-Inferenz-Funktion für DeepSeek-R1 & V3API. Benutzer können nun über die Batch-API Anfragen an SiliconCloud senden, um die Einschränkungen der Echtzeit-Inferenzrate zu umgehen und umfangreiche Datenverarbeitungsaufgaben innerhalb von 24 Stunden zu erledigen.

Ein Highlight dieses Updates ist die deutliche Preissenkung. Die Batch-Inferenz von DeepSeek-V3 ist im Vergleich zur Echtzeit-Inferenz um 50 % günstiger. Noch erfreulicher ist die 75%ige Preissenkung für die Batch-Inferenz von DeepSeek-R1 vom 11. März bis 18. März. Der Eingangspreis beträgt nur 1 Yuan/Million Tokens, der Ausgangspreis 4 Yuan/Million Tokens.

QQ20250312-163818.png

Die Batch-Inferenz-Funktion soll Benutzern helfen, Aufgaben zur Generierung von Berichten, Datenbereinigung und andere umfangreiche Datenverarbeitungsaufgaben effizienter und kostengünstiger mit DeepSeek-R1 & V3API zu bewältigen. Diese Funktion eignet sich besonders für Szenarien der Datenanalyse und Modellbewertung, bei denen keine Echtzeitreaktion erforderlich ist.

Es sei darauf hingewiesen, dass DeepSeek-R1 & V3API bereits Funktionen wie Function Calling, JSON-Modus, Prefix und FIM unterstützen. Die TPM-Obergrenze (Tokens pro Minute) der Pro-Version von DeepSeek-R1 & V3API wurde von 10.000 auf 1.000.000 erhöht.