分类 基础理论 下的文章

可塑性是指神经网络快速改变预测应对新信息的能力。可塑性损失常发生在输入和预测目标随时间发生改变的环境,其神经网络需要“重写”之前的预测。这种场景对于DRL是常见的。因此,理解可塑性损失,损失是否可被缓和,对开发能够应对复杂且常变化环境的DRL智能体,非常重要。对缓解可塑性损失,常见机制是层重置激活单元重置、以及特征正则化。虽然这些方法观测到表现的提升,但是无法得到导致提升的机制。Lyle等人根据可塑性发生的情况,识别了该机制。

- 阅读剩余部分 -

经典的演化算法很难解决高纬问题。然而,Salimans等人的研究表明黑盒优化算法在机器人控制任务可展现与RL相媲美的性能。同时,演化策略拥有相对简单性、通用性、以及并行化的特点,因此对它的研究又产生了兴趣。Krzysztof等人利用结构化随机正交矩阵进行梯度近似,从而学习出了一个可快速训练和快速推理的策略。

- 阅读剩余部分 -

演化策略属于一类黑盒优化算法,可作为基于MDP框架的强化学习技术的替代方案。与RL相比,演化策略拥有扩展性强、对动作频率和延时奖励不变的特性、容忍极长时间窗口、以及不需要时序折扣或价值函数近似的优势。然而,该方法对较为困难的RL问题并不是非常有效。

- 阅读剩余部分 -