Q-Transformer
在机器人领域中,基于监督学习范式的大容量模型往往受限于被提供的高质量数据。之所以产生这种现象是因为人类往往希望机器人能够比专家更专业。同时,也希望机器人能够基于自己收集的数据取得更好的性能,而不是基于演示数据。在以上问题中,强化学习虽然能够展现出卓越的性能,但是基于强化学习算法的大容量模型很难大规模的实例化。本篇论文主要的目的是把大规模多样数据集与基于Transformer的策略架构结合。
在机器人领域中,基于监督学习范式的大容量模型往往受限于被提供的高质量数据。之所以产生这种现象是因为人类往往希望机器人能够比专家更专业。同时,也希望机器人能够基于自己收集的数据取得更好的性能,而不是基于演示数据。在以上问题中,强化学习虽然能够展现出卓越的性能,但是基于强化学习算法的大容量模型很难大规模的实例化。本篇论文主要的目的是把大规模多样数据集与基于Transformer的策略架构结合。
Decision Transformer效果主要在游戏中评估,并未在机器人领域得到验证。与RL算法相比,该算法的建模思路或思想完全不同。Decision Transformer把RL的序列决策问题变为了条件轨迹序列建模。这样的建模方式会规避掉RL中非线性函数、Bootstrapping、以及off-policy的致命三元素和未来奖励折扣。同时,基于Tansformer的方式能够直接通过自注意力进行信用分配。
连续空间的控制问题一致很难被有效解决,这是因为动作空间每个维度的离散化会导致动作的组合呈指数级爆炸。
对于机器人学习新任务,更多的是希望它能够根据少量的演示就能完成任务。然而,模仿学习往往需要大量的数据和精细的特征工程。文献[1]中结合元学习与模仿学习形成了one-shot模仿学习,该算法把同一任务的一种演示和另一种不同初始状态演示的初始状态作为输入,预测该状态下动作,从而使模型只需根据新任务的一段演示就能完成任务的通用能力。