扩散模型的性能虽优越,但是其限制了采样概率路径的空间。同时,扩散模型不仅拥有较长的训练时间,还需要通过蒸馏等方法提高采样效率。与之相比,连续正则化流CNFs能够建模任意的概率路径,但受限于无可扩展的CNF训练算法。为了解决CNFs模型训练的不稳定性,流匹配FM是一个基于回归固定条件概率路径向量场的Simulation-Free训练方法,为CNFs模型训练提供了等效梯度。该方法不仅拥有较好的样本质量,且训练与推理效率得到了很大的提升。

- 阅读剩余部分 -

为了使RL智能体能够部署到真实世界环境,必须要能够泛化到未观察到的环境。然而,RL很困难实现分布外的泛化,这是由于智能体往往过拟合于训练环境的细节。虽然监督学习的正则化技术可以被用于避免过拟合,但是RL与监督学习之间的差别限制了它们的应用。为了处理泛化性问题,SNR PUN作者们提出了信噪比正则化参数不确定性网络。

- 阅读剩余部分 -

经典的演化算法很难解决高纬问题。然而,Salimans等人的研究表明黑盒优化算法在机器人控制任务可展现与RL相媲美的性能。同时,演化策略拥有相对简单性、通用性、以及并行化的特点,因此对它的研究又产生了兴趣。Krzysztof等人利用结构化随机正交矩阵进行梯度近似,从而学习出了一个可快速训练和快速推理的策略。

- 阅读剩余部分 -