A plataforma SiliconCloud lança oficialmente hoje o recurso de inferência em lote (Batch Inference) para DeepSeek-R1 e V3API. Os usuários agora podem enviar solicitações para a SiliconCloud por meio da API em lote, eliminando as restrições da taxa de inferência em tempo real e concluindo tarefas de processamento de dados em larga escala em até 24 horas.

Um dos destaques desta atualização é a redução significativa de preços. O preço da inferência em lote do DeepSeek-V3 foi reduzido em 50% em comparação com a inferência em tempo real. Mais surpreendente ainda, entre 11 e 18 de março, o preço promocional da inferência em lote do DeepSeek-R1 terá uma redução de 75%, com o preço de entrada de apenas 1 yuan/milhão de Tokens e o preço de saída de 4 yuan/milhão de Tokens.

QQ20250312-163818.png

O lançamento do recurso de inferência em lote visa ajudar os usuários a processar tarefas de processamento de dados em larga escala, como geração de relatórios e limpeza de dados, de forma mais eficiente e com menor custo, aproveitando os serviços DeepSeek-R1 e V3API. Este recurso é especialmente adequado para análise de dados e avaliação de desempenho de modelos que não exigem resposta em tempo real.

Vale mencionar que, anteriormente, as APIs DeepSeek-R1 e V3API já suportavam recursos como Chamada de Função, Modo JSON, Prefixo e FIM, e o limite de TPM (Tokens processados por minuto) da versão Pro das APIs DeepSeek-R1 e V3API foi aumentado de 10.000 para 1.000.000.