信息瓶颈方法
信息瓶颈方法是信息论的一种技术。确切的说,给定随机变量$\mathbf{X}$和观测相关变量$\mathbf{Y}$之间联合分布$p(\mathbf{X},\mathbf{Y})$,在总结随机变量$\mathbf{X}$时,找到精确性和复杂性(压缩)之间最好平衡的方法。
信息瓶颈方法是信息论的一种技术。确切的说,给定随机变量$\mathbf{X}$和观测相关变量$\mathbf{Y}$之间联合分布$p(\mathbf{X},\mathbf{Y})$,在总结随机变量$\mathbf{X}$时,找到精确性和复杂性(压缩)之间最好平衡的方法。
在《Spectral Normalization for Generative Adversarial Networks》中,为了提高GAN中判别器训练的稳定性,利用spectral normalization控制判别器函数f的Lipschitz常数。相较于直接施加Lipschitz约束,该方法显著降低了模型训练和推理的计算复杂度。
在深度学习中,Lipschitz continuity常用于约束学习函数的形状,从而起到正则化的作用。那么,该约束的有效性和实现方式是什么?
off-policy算法样本效率的提升,通常得益于正则化方法使模型在每个环境步数可进行更多的梯度更新步数,即replay-ratio的增加。这是因为正则化可以缓解梯度步数增加而导致高估、过拟合、以及可塑性损失问题。由此,本文试图基于论文《Overestimation, Overfitting, and Plasticity in Actor-Critic: the Bitter Lesson of Reinforcement Learning》阐述off-policy的正则化。
根据算法的on-policy和off-policy,理解RL的扩展。
GAN由生成器和判别器构成,两者的目标函数均为度量生成数据分布与真实数据分布之间距离的函数。那么,距离度量函数对概率分布序列拟合有很大的影响。同时,GAN的训练非常不稳定,且模型很容易出现模式坍塌,即生成样本的多样性受到损失。因此,对损失函数和训练方法的改进,不断的出现。