标签 RL关键点下的文章

EAI猩球

Sharing knowledge, Acquiring technology.

标签 RL关键点下的文章

从离线演示数据中学习的关键点

作者: wyli
时间: 2024-02-17
分类: 模仿学习,Robot学习
1167 次阅读
1 条评论

机器人操作是一个时间演化动力系统，需要精细实时控制才能引导机械臂成功完成各种任务。

- 阅读剩余部分 -

深度策略梯度的实现关键点：PPO与TRPO案例研究

作者: wyli
时间: 2024-01-29
分类: 强化学习
1018 次阅读
评论

PPO相较于TRPO，不是利用KL-Divergence限制策略的更新幅度，而是直接clipping的方式。在PPO论文中表明直接clipping的方式使其性能超越TRPO。然而，Logan等人表明，不是clipping导致PPO算法性能优越，而是代码级的优化使其性能优越，这些代码级优化限制策略在可信区域更新。

- 阅读剩余部分 -

在线深度Actor-Critic算法的关键点

作者: wyli
时间: 2024-01-29
分类: 强化学习
797 次阅读
评论

RL算法虽然概念上简单，但是许多SOTA算法实施使用了许多设计决策。然而，这些设计决策很少被讨论，就导致RL算法的进步很难被归因。Andrychowicz等人基于在线深度actor-critic框架进行了大规模试验，研究了这些设计对算法性能的影响。

- 阅读剩余部分 -

标签 RL关键点下的文章

从离线演示数据中学习的关键点

深度策略梯度的实现关键点：PPO与TRPO案例研究

在线深度Actor-Critic算法的关键点

最新文章

标签云 (Top20)

分类

标签 RL关键点 下的文章

从离线演示数据中学习的关键点

深度策略梯度的实现关键点：PPO与TRPO案例研究

在线深度Actor-Critic算法的关键点

最新文章

标签云 (Top20)

分类

标签 RL关键点下的文章