wyli 发布的文章 - EAI猩球

EAI猩球

Sharing knowledge, Acquiring technology.

wyli 发布的文章

Lipschitz Continuity

作者: wyli
时间: 2025-04-15
分类: 理论,数学
341 次阅读
评论

在深度学习中，Lipschitz continuity常用于约束学习函数的形状，从而起到正则化的作用。那么，该约束的有效性和实现方式是什么？

- 阅读剩余部分 -

RL的正则化

作者: wyli
时间: 2025-03-23
分类: 强化学习
357 次阅读
评论

off-policy算法样本效率的提升，通常得益于正则化方法使模型在每个环境步数可进行更多的梯度更新步数，即replay-ratio的增加。这是因为正则化可以缓解梯度步数增加而导致高估、过拟合、以及可塑性损失问题。由此，本文试图基于论文《Overestimation, Overfitting, and Plasticity in Actor-Critic: the Bitter Lesson of Reinforcement Learning》阐述off-policy的正则化。

- 阅读剩余部分 -

分布式RL：方法

作者: wyli
时间: 2025-03-19
分类: 强化学习
279 次阅读
评论

根据算法的on-policy和off-policy，理解RL的扩展。

- 阅读剩余部分 -

GANs的演进与训练技巧

作者: wyli
时间: 2025-03-09
分类: 生成模型,基础模型
398 次阅读
评论

GAN由生成器和判别器构成，两者的目标函数均为度量生成数据分布与真实数据分布之间距离的函数。那么，距离度量函数对概率分布序列拟合有很大的影响。同时，GAN的训练非常不稳定，且模型很容易出现模式坍塌，即生成样本的多样性受到损失。因此，对损失函数和训练方法的改进，不断的出现。

- 阅读剩余部分 -

RL扩展：网络架构

作者: wyli
时间: 2025-03-02
分类: 强化学习
263 次阅读
评论

若要实现RL在参数量上的扩展，那么需要设计一个可降低过拟合风险的网络架构。这种网络架构通常引入了简单性偏差的元件，从而学习出泛化性较强的模型。

- 阅读剩余部分 -

分布式RL：训练框架

作者: wyli
时间: 2025-02-17
分类: 强化学习
379 次阅读
1 条评论

面对复杂任务时，RL算法需要与环境交互生成大量的数据用于学习，才能实现期望的性能。对于大量数据需求的挑战，有两种应对方法，分别是分布式训练和提升样本效率。其中，分布式训练是指智能体与数千个仿真环境交互以生成训练数据；样本效率提升的主要目的是提高利用有限数据的能力。

- 阅读剩余部分 -