wyli 发布的文章

对于机器人控制,有两种方法,分别是演化算法和强化学习。然而,该两种方法各有各自的特点。其中,RL智能体需要探索平衡和利用,探索是为了找到更优的策略,而利用是为了学习到奖励最大化的知识。然而,智能体扩展到数千个环境时,交互数据很快收敛,即不同环境中数据的相关性较高。那么,如何提高其探索能力呢?

- 阅读剩余部分 -

在真实世界中,智能体的探索通常有约束的,因为有些行为会产生较大的成本。同时,对于多目标的智能体来说,待满足的目标之间属于冲突的,那么就可以把其转化为有约束的优化问题,从而更好的解决问题。然而,《Constrained Policy Optimization》之前,CRL主要适用于低维空间。那么,CPO提出了什么方法,从而解决高维控制问题呢?

- 阅读剩余部分 -

在《RL中表示(一):样本效率和模型性能的提升方法》中提到:表示可提高RL的性能和样本效率。在RL训练过程中,表示的提取方式有两种,一种是把无监督损失作为辅助目标;另一种是预训练离线数据,作为Online RL的先验。那么,表示的对下游任务影响的评估方法是什么呢?两种表示提取方法都有哪些方法呢?

- 阅读剩余部分 -

深度强化学习的网络深度通常不超过4层,这是因为实验发现过深导致模型无法收敛。然而,深度神经网络可提取抽象表示,从而降低问题的求解难度,这在计算机视觉和自然语言处理领域属于常见的现象。然而,智能体面对的状态空间和动作空间大小是指数级的,那么4层网络显然很难提取到有效的表示。本文尝试回答表示有效的确切原因、以及如何提取Disentangled表示。

- 阅读剩余部分 -