Le compte officiel de SiliconCloud annonce que, à compter de ce jour, le support de l'inférence par lots (Batch Inference) est disponible pour les API DeepSeek-R1 et V3 sur la plateforme SiliconCloud.
Les utilisateurs peuvent envoyer des requêtes par lots à SiliconCloud via l'API, sans être limités par la vitesse d'inférence en temps réel. Le traitement des tâches devrait être terminé sous 24 heures. Par rapport à l'inférence en temps réel, le prix de l'inférence par lots DeepSeek-V3 est réduit de 50 %. Du 11 mars au 18 mars, le prix de l'inférence par lots DeepSeek-R1 est réduit de 75 %, avec un prix d'entrée de 1 yuan / million de jetons et un prix de sortie de 4 yuans / million de jetons.
L'inférence par lots permet aux utilisateurs de traiter plus efficacement les tâches de traitement de données volumineuses, telles que la génération de rapports et le nettoyage des données, et de bénéficier de services DeepSeek-R1 et V3 à moindre coût. Elle convient aux scénarios d'analyse de données et d'évaluation des performances des modèles ne nécessitant pas de réponse en temps réel.