机器学习前沿——函数估计方法

机器学习前沿——函数估计方法 5

橙子 人工智能前沿 2年前 (2022-01-02) 28 0

利用独立性的优势函数估计方法 论文链接: https://www.ijcai.org/proceedings/2021/0461.pdf 在强化学习中,优势函数  (advantage function)  普遍采用蒙特卡洛  (MC)、时间差分  (TD),以及一种将前两者结合的优势函数估计算法(GAE)  等进行估计,而这些算法都存在方差较高的问题。因此,微软亚洲研究院的研究员们首次提出通过利...

扫一扫二维码分享