El equipo de tecnología de JD Retail anuncia con orgullo el lanzamiento de TimeHF, su primer modelo de lenguaje de gran escala para la predicción de ventas a nivel de miles de millones. Este modelo, basado en el aprendizaje por refuerzo con retroalimentación humana (RLHF), se aplica por primera vez en el ámbito de la predicción de ventas, logrando una mejora significativa en la precisión de las predicciones (más del 10%) y reduciendo considerablemente la incertidumbre en la previsión de la demanda. Este logro no solo ha demostrado un rendimiento excepcional en la automatización del reabastecimiento de 20.000 artículos en JD, sino que también ha superado los estándares de la industria en varios conjuntos de datos públicos, convirtiéndose en un nuevo referente en el campo de la predicción de series temporales.

Durante la investigación, el equipo de algoritmos de la cadena de suministro de JD descubrió que los métodos tradicionales de predicción de series temporales, como ARIMA, Prophet y los modelos de aprendizaje profundo anteriores como LSTM y TCN, presentaban deficiencias significativas en la captura de patrones complejos y en la capacidad de generalización de muestras no vistas. Los modelos de lenguaje de gran escala existentes también enfrentan desafíos en la calidad de los datos y en las estrategias RLHF. Para superar estas limitaciones, el equipo de JD realizó innovaciones en tres aspectos: la construcción del conjunto de datos, el diseño del modelo y el plan de entrenamiento.

En la construcción del conjunto de datos, el equipo de JD integró datos de series temporales de ventas de JD, conjuntos de datos públicos y datos sintéticos. Mediante técnicas de filtrado de calidad, eliminación de duplicados, ordenación por diversidad y ajuste de la proporción de datos, se creó un conjunto de datos masivo y de alta calidad con 1.500 millones de muestras. La escala y la calidad de este conjunto de datos son sin precedentes en el campo de las series temporales, proporcionando una base sólida para el entrenamiento del modelo.

微信截图_20250410085800.png

En cuanto al diseño del modelo, JD propuso el modelo PCTLM (Patch Convolutional Timeseries Large Model). Este modelo utiliza un método basado en parches para modelar las series temporales mediante una arquitectura de codificador enmascarado, e incorpora un mecanismo de atención agrupada con codificación de posición temporal, lo que permite capturar eficazmente la información entre parches y mejorar la capacidad del modelo para capturar complejas relaciones espacio-temporales.

En el plan de entrenamiento, JD propuso por primera vez el marco de aprendizaje por refuerzo TPO (Timeseries Policy Optimization) para modelos de lenguaje de gran escala puramente temporales. Este marco aborda las limitaciones de los marcos RLHF tradicionales para su aplicación directa en escenarios temporales, introduciendo innovaciones como un componente de probabilización de predicciones, una función de ventaja y una pérdida temporal, lo que mejora significativamente el rendimiento predictivo del modelo.

Gracias a estas innovaciones, TimeHF ha logrado resultados de vanguardia (SOTA) en varios conjuntos de datos públicos, mostrando un rendimiento superior en muestras no vistas y una mayor precisión predictiva en comparación con los métodos de aprendizaje profundo de series temporales y los modelos de lenguaje de gran escala ajustados. Actualmente, este modelo ya está implementado y en funcionamiento en el sistema de cadena de suministro de JD, proporcionando predicciones de reabastecimiento automático para 20.000 SKU con una mejora significativa en la precisión.

El equipo de cadena de suministro de JD Retail Group celebrará un seminario web el 19 de abril para explicar en detalle los aspectos técnicos de TimeHF, incluyendo la construcción de conjuntos de datos de series temporales masivos, de alta calidad y diversos, y la estrategia RLHF para modelos de lenguaje de gran escala temporales. Este logro no solo ha revolucionado la gestión de la cadena de suministro de JD, sino que también proporciona una valiosa referencia técnica y un ejemplo práctico para toda la industria.