A equipe de tecnologia de varejo da JD.com anunciou o lançamento bem-sucedido de seu primeiro modelo de previsão de vendas de bilhões de níveis baseado em séries temporais - TimeHF. Este modelo é baseado na técnica de aprendizado por reforço com feedback humano (RLHF), aplicada pela primeira vez na área de previsão de vendas, resultando em um aumento significativo da precisão de previsão em mais de 10% e redução substancial da incerteza na previsão da demanda. Este feito não apenas obteve resultados excepcionais em 20.000 cenários de reposição automática de produtos dentro da JD.com, mas também superou os níveis atuais do setor em vários conjuntos de dados públicos, tornando-se um novo padrão na área de previsão de séries temporais.

A equipe de algoritmos da cadeia de suprimentos da JD.com descobriu, em suas pesquisas tecnológicas, que os métodos tradicionais de previsão de séries temporais, como ARIMA, Prophet e modelos de aprendizado profundo anteriores como LSTM e TCN, apresentam deficiências significativas na captura de padrões complexos e na capacidade de generalização de zero-shot. Os modelos de séries temporais existentes também enfrentam muitos desafios na qualidade dos dados e nas soluções RLHF. Para isso, a equipe da JD.com inovou em três aspectos: construção de conjuntos de dados, design de modelos e estratégias de treinamento.

Na construção do conjunto de dados, a equipe da JD.com integrou dados de séries temporais de vendas da própria JD.com, conjuntos de dados públicos e dados sintéticos. Através de filtragem de qualidade, desduplicação, classificação de diversidade e correspondência de dados, foi construído um conjunto de dados complexo e de alta qualidade com 1,5 bilhão de amostras. A escala e a qualidade deste conjunto de dados são sem precedentes no campo de séries temporais, fornecendo uma base sólida para o treinamento do modelo.

微信截图_20250410085800.png

No design do modelo, a JD.com propôs o modelo PCTLM (Patch Convolutional Timeseries Large Model). Este modelo usa um método baseado em Patch para modelar séries temporais através de uma arquitetura de codificador mascarado, e introduz um mecanismo de atenção em grupo com codificação de posição temporal, capturando efetivamente informações entre Patches e melhorando a capacidade do modelo de capturar associações espaço-temporais complexas.

Na estratégia de treinamento, a JD.com propôs pela primeira vez a estrutura de aprendizado por reforço TPO (Timeseries Policy Optimization) aplicável a grandes modelos de séries temporais. Esta estrutura aborda as características dos grandes modelos de séries temporais, resolvendo o problema de que a estrutura RLHF tradicional não pode ser aplicada diretamente a cenários de séries temporais. Através da adição de um componente de probabilidade de previsão, do design de uma função de vantagem e da perda de séries temporais, entre outras inovações, o desempenho de previsão do modelo foi significativamente aprimorado.

Após uma série de inovações, o TimeHF alcançou resultados SOTA (State of the Art) em vários conjuntos de dados públicos, mostrando desempenho de zero-shot e precisão de previsão superiores em comparação com os métodos de aprendizado profundo de séries temporais e modelos de ajuste fino de ponta atuais. Atualmente, este modelo já foi implantado e colocado em operação no sistema de cadeia de suprimentos da JD.com, fornecendo previsão de reposição automática para 20.000 SKUs, com um aumento significativo na precisão da previsão.

A equipe de cadeia de suprimentos do grupo de varejo da JD.com realizará um webinar em 19 de abril para detalhar as informações técnicas do TimeHF, incluindo como construir conjuntos de dados de séries temporais de grande escala, de alta qualidade e diversificados, e a solução RLHF para grandes modelos de séries temporais. Este feito não apenas trouxe inovação para a gestão da cadeia de suprimentos da própria JD.com, mas também fornece uma valiosa referência técnica e exemplo prático para toda a indústria.