分类 Robot学习下的文章

策略迁移与策略优化

作者: wyli
时间: 2024-01-24
分类: Robot学习
280 次阅读
评论

在UP-OSI中，通过函数拟合器近似系统参数，策略函数在给定系统参数的情况下预测动作，从而让策略能够迁移到真实环境。与UP-OSI方式不同，PTSO在策略集中搜寻最好的策略以适应环境。

DTC：四足机器人可穿越稀疏奖励环境的深度轨迹追踪控制

作者: wyli
时间: 2024-01-20
分类: Robot学习
826 次阅读
评论

足式运动是一个复杂的控制问题，它需要精确性和鲁棒性以应对真实世界的挑战。经典的方式是基于逆运动学的轨迹优化控制足式系统。这种层级的基于模型的方法很有吸引力，因为直观的成本函数、精确的规划、泛化性、以及数十年的研究成果积累。然而，模型的不匹配与假设的违反是错误产生的常见源头。另一方面，基于仿真的强化学习产生了空前的鲁棒性策略和恢复技能。尽管如此，所有的学习算法很难应对稀疏奖励的环境，在这样的环境中有效的足迹是稀疏的。

- 阅读剩余部分 -

动力学随机化：四足机器人运动的案例研究

作者: wyli
时间: 2024-01-19
分类: Robot学习
565 次阅读
2 条评论

Dynamics Randomization Revisited:A Case Study for Quadrupedal Locomotion的作者研究了动力学随机化对足式机器人学习强健运动策略的影响。在sim-to-sim和sim-to-real场景中进行了广泛的消融研究，以理解策略迁移成功的因素。实验结果表明，对于一些场景，动力学随机化即是不必要的；也有一些场景是不足够的，且可能使机器人学习到的策略偏向于保守。作者们主张动力学随机化应该被保守的运用，只对有问题的参数使用随机化。

- 阅读剩余部分 -

面对未知：学习一个具有线上系统识别的通用策略

作者: wyli
时间: 2024-01-17
分类: Robot学习
550 次阅读
3 条评论

简单来说，UP-OSI作者们提出了一个学习框架(可见图1)，用于解决机器人领域"Reality Gap"的问题。该学习框架的核心思想是：通过仿真探索“虚拟世界”，提前计算机器人能够遇到的许多可能情况。为了该方法可行，作者们提出了两个假设，分别是

假设存在一种方法可提前计算每种动力学模型的最优策略。
假设存在一种快速方法可知道哪种动力学模型适合观测序列。

- 阅读剩余部分 -

Mobile ALOHA

作者: wyli
时间: 2024-01-17
分类: Robot学习
424 次阅读
评论

Mobile ALOHA是一款可移动的双臂操纵机器人，用于处理日常家务。日常的家务往往需要机器人移动能力和操纵能力协作才能完成，例如：机器人把锅放在冰箱内，机器人先要移动到冰箱前，然后打开冰箱，最后把物品放入冰箱。在打开冰箱的时候，甚至需要机器人底座倒车。然而，前人工作只是移动能力或操纵能力单方面的研究，这与现实相差很大。

- 阅读剩余部分 -

机器人模仿动物的方式学习敏捷技能

作者: wyli
时间: 2024-01-16
分类: Robot学习
394 次阅读
1 条评论

基于强化学习范式的足式机器人能够在复杂的领域运动。然而，复杂的行为很难生成。同时，奖励设计和参数调节都需要花费很长的时间设计。

- 阅读剩余部分 -