A conta oficial do SiliconCloud anunciou que, a partir de agora, o DeepSeek-R1 e a API V3 do SiliconCloud Platform suportam inferência em lote (Batch Inference).
Os usuários podem enviar solicitações em lote para o SiliconCloud através da API, sem serem afetados pela limitação de taxa de inferência em tempo real. Espera-se que as tarefas sejam concluídas em 24 horas. Em comparação com a inferência em tempo real, o preço da inferência em lote do DeepSeek-V3 foi reduzido em 50%. De 11 a 18 de março, o preço da inferência em lote do DeepSeek-R1 será reduzido em 75%, com um preço de entrada de 1 yuan / milhão de Tokens e um preço de saída de 4 yuan / milhão de Tokens.
A inferência em lote ajuda os usuários a processar tarefas de processamento de grandes quantidades de dados de forma mais eficiente, como geração de relatórios e limpeza de dados, e a desfrutar de serviços de API DeepSeek-R1 e V3 a um custo menor. É adequada para análise de dados e avaliação de desempenho de modelos que não exigem resposta em tempo real.