La plateforme SiliconCloud lance officiellement aujourd'hui la fonctionnalité d'inférence par lots (Batch Inference) pour DeepSeek-R1 & V3API. Les utilisateurs peuvent désormais envoyer des requêtes par lots à SiliconCloud via l'API, se libérant ainsi des contraintes de vitesse d'inférence en temps réel et effectuant des tâches de traitement de données à grande échelle dans un délai prévu de 24 heures.

L'un des points forts de cette mise à jour est une réduction significative des prix. Le prix de l'inférence par lots DeepSeek-V3 est réduit de 50 % par rapport à l'inférence en temps réel. Plus surprenant encore, du 11 mars au 18 mars, le prix promotionnel de l'inférence par lots DeepSeek-R1 est réduit de 75 %, avec un prix d'entrée de seulement 1 yuan/million de jetons et un prix de sortie de 4 yuan/million de jetons.

QQ20250312-163818.png

La fonctionnalité d'inférence par lots vise à aider les utilisateurs à traiter plus efficacement les tâches de traitement de données à grande échelle, telles que la génération de rapports et le nettoyage de données, tout en bénéficiant des services DeepSeek-R1 & V3API à moindre coût. Cette fonctionnalité est particulièrement adaptée aux scénarios d'analyse de données et d'évaluation des performances des modèles ne nécessitant pas de réponse en temps réel.

Il est à noter que DeepSeek-R1 & V3API prennent déjà en charge les fonctionnalités Function Calling, JSON Mode, Prefix, FIM, etc. De plus, la limite de TPM (jetons traités par minute) de la version Pro de DeepSeek-R1 & V3API est passée de 10 000 à 1 000 000.