wyli 发布的文章

足式机器人的快速电机自适应

作者: wyli
时间: 2024-01-15
分类: Robot学习
778 次阅读
3 条评论

经典的足式机器人主要是基于物理动力学和控制理论实现，这种方法需要大量的专家设计才能有效果。然而，这种方式仍然无法应对不确定性的环境。最近，基于强化学习和模仿学习的范式取得了很大的成功。然而，强化学习用于机器人存在Sim2Real Gap的问题，阻碍了发展。对于该问题经典的解决方案是利用Sim2Real技术把算法模型从虚拟环境迁移到真实环境，仍然具有很大的挑战。

- 阅读剩余部分 -

Q-Transformer

作者: wyli
时间: 2024-01-15
分类: 基础模型
691 次阅读
评论

在机器人领域中，基于监督学习范式的大容量模型往往受限于被提供的高质量数据。之所以产生这种现象是因为人类往往希望机器人能够比专家更专业。同时，也希望机器人能够基于自己收集的数据取得更好的性能，而不是基于演示数据。在以上问题中，强化学习虽然能够展现出卓越的性能，但是基于强化学习算法的大容量模型很难大规模的实例化。本篇论文主要的目的是把大规模多样数据集与基于Transformer的策略架构结合。

- 阅读剩余部分 -

Decision Transformer

作者: wyli
时间: 2024-01-15
分类: 基础模型
1034 次阅读
1 条评论

Decision Transformer效果主要在游戏中评估，并未在机器人领域得到验证。与RL算法相比，该算法的建模思路或思想完全不同。Decision Transformer把RL的序列决策问题变为了条件轨迹序列建模。这样的建模方式会规避掉RL中非线性函数、Bootstrapping、以及off-policy的致命三元素和未来奖励折扣。同时，基于Tansformer的方式能够直接通过自注意力进行信用分配。

- 阅读剩余部分 -

SDQN：连续性动作的离散化序列预测

作者: wyli
时间: 2024-01-15
分类: 基于值,强化学习
818 次阅读
2 条评论

连续空间的控制问题一致很难被有效解决，这是因为动作空间每个维度的离散化会导致动作的组合呈指数级爆炸。

- 阅读剩余部分 -

one-shot模仿学习

作者: wyli
时间: 2024-01-15
分类: 模仿学习
542 次阅读
评论

对于机器人学习新任务，更多的是希望它能够根据少量的演示就能完成任务。然而，模仿学习往往需要大量的数据和精细的特征工程。文献[1]中结合元学习与模仿学习形成了one-shot模仿学习，该算法把同一任务的一种演示和另一种不同初始状态演示的初始状态作为输入，预测该状态下动作，从而使模型只需根据新任务的一段演示就能完成任务的通用能力。

- 阅读剩余部分 -