分类 Robot学习 下的文章
DTC:四足机器人可穿越稀疏奖励环境的深度轨迹追踪控制
足式运动是一个复杂的控制问题,它需要精确性和鲁棒性以应对真实世界的挑战。经典的方式是基于逆运动学的轨迹优化控制足式系统。这种层级的基于模型的方法很有吸引力,因为直观的成本函数、精确的规划、泛化性、以及数十年的研究成果积累。然而,模型的不匹配与假设的违反是错误产生的常见源头。另一方面,基于仿真的强化学习产生了空前的鲁棒性策略和恢复技能。尽管如此,所有的学习算法很难应对稀疏奖励的环境,在这样的环境中有效的足迹是稀疏的。
动力学随机化:四足机器人运动的案例研究
Dynamics Randomization Revisited:A Case Study for Quadrupedal Locomotion的作者研究了动力学随机化对足式机器人学习强健运动策略的影响。在sim-to-sim和sim-to-real场景中进行了广泛的消融研究,以理解策略迁移成功的因素。实验结果表明,对于一些场景,动力学随机化即是不必要的;也有一些场景是不足够的,且可能使机器人学习到的策略偏向于保守。作者们主张动力学随机化应该被保守的运用,只对有问题的参数使用随机化。
面对未知:学习一个具有线上系统识别的通用策略
简单来说,UP-OSI作者们提出了一个学习框架(可见图1),用于解决机器人领域"Reality Gap"的问题。该学习框架的核心思想是:通过仿真探索“虚拟世界”,提前计算机器人能够遇到的许多可能情况。为了该方法可行,作者们提出了两个假设,分别是
- 假设存在一种方法可提前计算每种动力学模型的最优策略。
- 假设存在一种快速方法可知道哪种动力学模型适合观测序列。
Mobile ALOHA
Mobile ALOHA是一款可移动的双臂操纵机器人,用于处理日常家务。日常的家务往往需要机器人移动能力和操纵能力协作才能完成,例如:机器人把锅放在冰箱内,机器人先要移动到冰箱前,然后打开冰箱,最后把物品放入冰箱。在打开冰箱的时候,甚至需要机器人底座倒车。然而,前人工作只是移动能力或操纵能力单方面的研究,这与现实相差很大。
机器人模仿动物的方式学习敏捷技能
基于强化学习范式的足式机器人能够在复杂的领域运动。然而,复杂的行为很难生成。同时,奖励设计和参数调节都需要花费很长的时间设计。