2024年1月

策略迁移与策略优化

作者: wyli
时间: 2024-01-24
分类: Robot学习
289 次阅读
评论

在UP-OSI中，通过函数拟合器近似系统参数，策略函数在给定系统参数的情况下预测动作，从而让策略能够迁移到真实环境。与UP-OSI方式不同，PTSO在策略集中搜寻最好的策略以适应环境。

RT2：视觉-语言-动作模型将网络知识迁移到机器人控制

作者: wyli
时间: 2024-01-23
分类: 基础模型,VLA模型
799 次阅读
评论

与RT-1关注模型的泛化能力相比，RT-2的目标是训练一个学习机器人观测到动作端到端的模型，且能够利用大规模预训练视觉语言模型的益处。最终，提出了一个在机器人轨迹数据和互联网级别的视觉语言任务联合微调视觉语言SOTA模型的学习方式。这类学习方法产生的模型被称为vision-language-action(VLA)模型。经过评估，发现，该类模型获得了涌现能力，包括泛化到新对象的能力、解释命令的能力、根据用户指令思维推理的能力。

- 阅读剩余部分 -

RT-1：用于真实世界大规模控制的机器人Transformer

作者: wyli
时间: 2024-01-22
分类: 基础模型,VLA模型
955 次阅读
1 条评论

在自然语言处理与计算机视觉领域，高容量模型基于开放的不可知的任务训练，可以吸收大规模数据集中呈现的知识，从而学习到通用能力。然后，该模型可以在特定的新任务实现少样本或零样本泛化的能力。这种通用能力在机器人领域更为重要。

- 阅读剩余部分 -

DTC：四足机器人可穿越稀疏奖励环境的深度轨迹追踪控制

作者: wyli
时间: 2024-01-20
分类: Robot学习
841 次阅读
评论

足式运动是一个复杂的控制问题，它需要精确性和鲁棒性以应对真实世界的挑战。经典的方式是基于逆运动学的轨迹优化控制足式系统。这种层级的基于模型的方法很有吸引力，因为直观的成本函数、精确的规划、泛化性、以及数十年的研究成果积累。然而，模型的不匹配与假设的违反是错误产生的常见源头。另一方面，基于仿真的强化学习产生了空前的鲁棒性策略和恢复技能。尽管如此，所有的学习算法很难应对稀疏奖励的环境，在这样的环境中有效的足迹是稀疏的。

- 阅读剩余部分 -

动力学随机化：四足机器人运动的案例研究

作者: wyli
时间: 2024-01-19
分类: Robot学习
575 次阅读
2 条评论

Dynamics Randomization Revisited:A Case Study for Quadrupedal Locomotion的作者研究了动力学随机化对足式机器人学习强健运动策略的影响。在sim-to-sim和sim-to-real场景中进行了广泛的消融研究，以理解策略迁移成功的因素。实验结果表明，对于一些场景，动力学随机化即是不必要的；也有一些场景是不足够的，且可能使机器人学习到的策略偏向于保守。作者们主张动力学随机化应该被保守的运用，只对有问题的参数使用随机化。

- 阅读剩余部分 -

IMPALA：分布式RL框架

作者: wyli
时间: 2024-01-18
分类: 强化学习
411 次阅读
2 条评论

为了使单一参数的单个智能体能够解决大量任务，IMPALA作者们提出了重要性权重Actor-Learner架构，可见图1所示。若要智能体同时掌握各种各样的技能，面对最大的挑战是可扩展性，例如：A3C智能体掌握一个领域就需要数十亿的数据和很长时间的训练，更不敢想象一次掌握数十个领域了。

- 阅读剩余部分 -

策略迁移与策略优化

RT2：视觉-语言-动作模型将网络知识迁移到机器人控制

RT-1：用于真实世界大规模控制的机器人Transformer

DTC：四足机器人可穿越稀疏奖励环境的深度轨迹追踪控制

动力学随机化：四足机器人运动的案例研究

IMPALA：分布式RL框架

最新文章

标签云 (Top20)

分类