Decision Transformer
Decision Transformer效果主要在游戏中评估,并未在机器人领域得到验证。与RL算法相比,该算法的建模思路或思想完全不同。Decision Transformer把RL的序列决策问题变为了条件轨迹序列建模。这样的建模方式会规避掉RL中非线性函数、Bootstrapping、以及off-policy的致命三元素和未来奖励折扣。同时,基于Tansformer的方式能够直接通过自注意力进行信用分配。
Decision Transformer效果主要在游戏中评估,并未在机器人领域得到验证。与RL算法相比,该算法的建模思路或思想完全不同。Decision Transformer把RL的序列决策问题变为了条件轨迹序列建模。这样的建模方式会规避掉RL中非线性函数、Bootstrapping、以及off-policy的致命三元素和未来奖励折扣。同时,基于Tansformer的方式能够直接通过自注意力进行信用分配。