AIbase
产品库工具导航

value-rnn-td

Public

使用时序差分学习 (TD learning) 训练一个循环神经网络 (RNN) 来估计部分可观测马尔可夫决策过程 (POMDP) 中的状态价值。

创建时间2022-02-26T23:05:43
更新时间2023-10-11T10:47:30
5
Stars
0
Stars Increase

相关项目