率失真是信息论的一个主要分支,为有损数据压缩提供了理论基础。它处理了每个符号由多少位$R$决定的问题,,以便于源可被接受者重建,且不超过期望的失真$D$。

- 阅读剩余部分 -

off-policy算法样本效率的提升,通常得益于正则化方法使模型在每个环境步数可进行更多的梯度更新步数,即replay-ratio的增加。这是因为正则化可以缓解梯度步数增加而导致高估、过拟合、以及可塑性损失问题。由此,本文试图基于论文《Overestimation, Overfitting, and Plasticity in Actor-Critic: the Bitter Lesson of Reinforcement Learning》阐述off-policy的正则化。

- 阅读剩余部分 -