La cuenta oficial de SiliconCloud anuncia que, a partir de ahora, la plataforma SiliconCloud de DeepSeek-R1 y V3 API admite inferencia por lotes (Batch Inference).
Los usuarios pueden enviar solicitudes a SiliconCloud a través de la API por lotes, sin verse afectados por las limitaciones de velocidad de inferencia en tiempo real. Se espera que las tareas se completen en un plazo de 24 horas. En comparación con la inferencia en tiempo real, el precio de la inferencia por lotes de DeepSeek-V3 se reduce en un 50%. Del 11 al 18 de marzo, el precio de la inferencia por lotes de DeepSeek-R1 se reduce en un 75%, con un precio de entrada de 1 yuan/millón de tokens y un precio de salida de 4 yuanes/millón de tokens.
La inferencia por lotes ayuda a los usuarios a procesar de manera más eficiente tareas de procesamiento de grandes cantidades de datos, como la generación de informes y la limpieza de datos, disfrutando de un servicio DeepSeek-R1 y V3 API a un coste menor. Es adecuada para el análisis de datos que no requieren respuesta en tiempo real, la evaluación del rendimiento del modelo, etc.