奖励中心化可大幅降低智能体样本复杂度
在持续性问题中,智能体与环境的交互无法被分为子序列或episodes。那么,评估智能体表现的方式有两种,分别是度量平均奖励和累积折扣奖励。论文Reward Centering的作者们表明从每步的观测奖励中估计和减去平均奖励可显著提升基于折扣方法的智能体的性能。同时,作者们表明奖励中心化的含义有:
- 平均中心化奖励从价值估计中移除了一个独立于状态的常量,从而使价值函数近似器聚焦于状态与动作之间的相对区别。
- 平均中心化奖励使标准方法对奖励中的常量偏置具有更强的鲁棒性。这对奖励信号不可知或变化的场景非常有用。