RL中基于状态-动作的基线降低方差的幻觉
对于基于策略梯度算法估计梯度,常用的减少方差的方法是$Q$函数与只依赖于状态的基线做差,得到优势函数。这种方式可以明显降低方差,且不引入偏差。文献[2],[3],[4],[5],[6]对基于基线的方法进行了扩展,把依赖于状态的基线变为依赖于状态-动作的基线,实验表明其性能超越只依赖状态的基线。为了理解基于状态-动作的基线降低方差的机制,文献[1]对这类基线进行了研究。同时,也提出了一些无偏差的方差降低方法。
对于基于策略梯度算法估计梯度,常用的减少方差的方法是$Q$函数与只依赖于状态的基线做差,得到优势函数。这种方式可以明显降低方差,且不引入偏差。文献[2],[3],[4],[5],[6]对基于基线的方法进行了扩展,把依赖于状态的基线变为依赖于状态-动作的基线,实验表明其性能超越只依赖状态的基线。为了理解基于状态-动作的基线降低方差的机制,文献[1]对这类基线进行了研究。同时,也提出了一些无偏差的方差降低方法。