EAI猩球

率失真

作者: wyli
时间: 2025-05-27
分类: 理论,信息论
评论
410 次阅读

率失真是信息论的一个主要分支，为有损数据压缩提供了理论基础。它处理了每个符号由多少位$R$决定的问题，，以便于源可被接受者重建，且不超过期望的失真$D$。

信息瓶颈方法

作者: wyli
时间: 2025-05-26
分类: 理论,信息论
评论
461 次阅读

信息瓶颈方法是信息论的一种技术。确切的说，给定随机变量$\mathbf{X}$和观测相关变量$\mathbf{Y}$之间联合分布$p(\mathbf{X},\mathbf{Y})$，在总结随机变量$\mathbf{X}$时，找到精确性和复杂性(压缩)之间最好平衡的方法。

- 阅读剩余部分 -

矩阵范数与Spectral标准化

作者: wyli
时间: 2025-05-11
分类: 理论,数学
评论
449 次阅读

在《Spectral Normalization for Generative Adversarial Networks》中，为了提高GAN中判别器训练的稳定性，利用spectral normalization控制判别器函数f的Lipschitz常数。相较于直接施加Lipschitz约束，该方法显著降低了模型训练和推理的计算复杂度。

- 阅读剩余部分 -

Lipschitz Continuity

作者: wyli
时间: 2025-04-15
分类: 理论,数学
评论
780 次阅读

在深度学习中，Lipschitz continuity常用于约束学习函数的形状，从而起到正则化的作用。那么，该约束的有效性和实现方式是什么？

- 阅读剩余部分 -

off-policy算法样本效率的提升，通常得益于正则化方法使模型在每个环境步数可进行更多的梯度更新步数，即replay-ratio的增加。这是因为正则化可以缓解梯度步数增加而导致高估、过拟合、以及可塑性损失问题。由此，本文试图基于论文《Overestimation, Overfitting, and Plasticity in Actor-Critic: the Bitter Lesson of Reinforcement Learning》阐述off-policy的正则化。

- 阅读剩余部分 -

分布式RL：方法

作者: wyli
时间: 2025-03-19
分类: 强化学习
评论
487 次阅读

根据算法的on-policy和off-policy，理解RL的扩展。

- 阅读剩余部分 -

率失真

信息瓶颈方法

矩阵范数与Spectral标准化

Lipschitz Continuity

RL的正则化

分布式RL：方法

最新文章

标签云 (Top20)

分类