从离线演示数据中学习的关键点 作者: Evan-wyl 时间: 2024-02-17 分类: 操作,模仿学习,Robot学习 397 次阅读 1 条评论 机器人操作是一个时间演化动力系统,需要精细实时控制才能引导机械臂成功完成各种任务。- 阅读剩余部分 -
深度策略梯度的实现关键点:PPO与TRPO案例研究 作者: Evan-wyl 时间: 2024-01-29 分类: 强化学习 318 次阅读 评论 PPO相较于TRPO,不是利用KL-Divergence限制策略的更新幅度,而是直接clipping的方式。在PPO论文中表明直接clipping的方式使其性能超越TRPO。然而,Logan等人表明,不是clipping导致PPO算法性能优越,而是代码级的优化使其性能优越,这些代码级优化限制策略在可信区域更新。 - 阅读剩余部分 -
在线深度Actor-Critic算法的关键点 作者: Evan-wyl 时间: 2024-01-29 分类: 强化学习 256 次阅读 评论 RL算法虽然概念上简单,但是许多SOTA算法实施使用了许多设计决策。然而,这些设计决策很少被讨论,就导致RL算法的进步很难被归因。Andrychowicz等人基于在线深度actor-critic框架进行了大规模试验,研究了这些设计对算法性能的影响。 - 阅读剩余部分 -