La plataforma SiliconCloud lanza oficialmente hoy la función de inferencia por lotes (Batch Inference) para DeepSeek-R1 y V3API. Ahora los usuarios pueden enviar solicitudes a SiliconCloud a través de la API por lotes, liberándose de las limitaciones de la velocidad de inferencia en tiempo real y completando tareas de procesamiento de datos a gran escala en un plazo previsto de 24 horas.

Uno de los aspectos más destacados de esta actualización es la considerable reducción de precios. El precio de la inferencia por lotes de DeepSeek-V3 se ha reducido un 50% en comparación con la inferencia en tiempo real. Más sorprendente aún, entre el 11 y el 18 de marzo, el precio promocional de la inferencia por lotes de DeepSeek-R1 se reduce en un 75%, con un precio de entrada de solo 1 yuan/millón de Tokens y un precio de salida de 4 yuan/millón de Tokens.

QQ20250312-163818.png

El lanzamiento de la función de inferencia por lotes tiene como objetivo ayudar a los usuarios a procesar de manera más eficiente tareas de procesamiento de datos a gran escala, como la generación de informes y la limpieza de datos, disfrutando de los servicios DeepSeek-R1 y V3API a un costo menor. Esta función es especialmente adecuada para el análisis de datos y la evaluación del rendimiento del modelo que no requieren respuesta en tiempo real.

Cabe mencionar que, anteriormente, DeepSeek-R1 y V3API ya admitían funciones como Llamada a funciones, Modo JSON, Prefijo y FIM, y el límite superior de TPM (Tokens procesados por minuto) de la versión Pro de DeepSeek-R1 y V3API ha aumentado de 10.000 a 1.000.000.