RL算法不适用于持续型任务的技术点及应对方法
时下,RL主要处理episode任务或单一episode的持续任务,论文《Discounted Reinforcement Learning Is Not an Optimization Problem》分析了该范式的技术有哪些不适用于显著不同episode的持续任务的呢?
时下,RL主要处理episode任务或单一episode的持续任务,论文《Discounted Reinforcement Learning Is Not an Optimization Problem》分析了该范式的技术有哪些不适用于显著不同episode的持续任务的呢?