SDQN:连续性动作的离散化序列预测
连续空间的控制问题一致很难被有效解决,这是因为动作空间每个维度的离散化会导致动作的组合呈指数级爆炸。
连续空间的控制问题一致很难被有效解决,这是因为动作空间每个维度的离散化会导致动作的组合呈指数级爆炸。
对于机器人学习新任务,更多的是希望它能够根据少量的演示就能完成任务。然而,模仿学习往往需要大量的数据和精细的特征工程。文献[1]中结合元学习与模仿学习形成了one-shot模仿学习,该算法把同一任务的一种演示和另一种不同初始状态演示的初始状态作为输入,预测该状态下动作,从而使模型只需根据新任务的一段演示就能完成任务的通用能力。