标签 Multi-Objective-RL 下的文章

在真实世界中,智能体的探索通常有约束的,因为有些行为会产生较大的成本。同时,对于多目标的智能体来说,待满足的目标之间属于冲突的,那么就可以把其转化为有约束的优化问题,从而更好的解决问题。然而,《Constrained Policy Optimization》之前,CRL主要适用于低维空间。那么,CPO提出了什么方法,从而解决高维控制问题呢?

- 阅读剩余部分 -