Evan-wyl 发布的文章

目前,强化学习算法聚焦的范式是:当智能体思考执行什么动作时,假设环境是静态的。然而,这种假设对于真实世界是不成立的,因为智能体在处理观测和规划下一步动作时,环境的状态也在不断的发生变化。对于这种不断变化的环境,被称为并发环境。为了能够基于深度强化学习处理并发环境,文献[1]提出了一个适用于并发马尔科夫决策过程的连续时间Bellman运算。

- 阅读剩余部分 -

为了解决由智能体学到的策略$\pi$与数据产生的行为策略$\pi_{\beta}$之间分布偏移产生的价值高估问题,CQL算法学习出保守型Q函数,使Q函数的期望值为策略$\pi$下价值函数$V(s)$真实值的下界。在理论上,证明了CQL的确产生了价值函数$V(s)$真实值的下界,且该算法可应用到策略学习迭代步骤中。

- 阅读剩余部分 -

基于演示的策略学习是学习观测到动作映射的监督学习任务。然而,现实中机器人动作具有多峰分布、序列相关、以及高精度要求的特点,与其它监督学习任务相比具有很大的挑战。扩散策略是一个新形式的机器人视觉运动策略。与直接预测动作不同,它以视觉观测为条件推断动作-分数的梯度。这种方式学习到的策略继承了扩散模型许多关键特性:

- 阅读剩余部分 -