扩散模型是一类概率生成模型,它通过注入噪声逐步破坏数据,然后学习其逆过程,以生成样本。目前,扩散模型主要有三种形式:去噪扩散概率模型[2,3] (Denoising Diffusion Probabilistic Models, 简称DDPMs)、基于分数的生成模型[4,5] (Score-Based Generative Models,简称SGMs)、随机微分方程[6,7,8] (Stochastic Differential Equations,简称Score SDEs)。

- 阅读剩余部分 -

首要偏见是指智能体对早期的交互数据过拟合,而对新的交互数据无法学习到新知识。这种现象也存在于人类的认知过程中,例如:人类在学习弹吉他时,一开始基于简单的曲子学习,但是由于过于熟悉之前的经验,进而形成无意识的习惯,从而导致无法根据新经验学习。

- 阅读剩余部分 -

DQN算法利用经验回放奖励样本之间的相关性,很大的提高了算法的性能。经验回放实际上是一个提高样本效率强有力的工具。文献[1]中作者们提出了ACER(Actor Critic with Experience Replay)算法实现了与DQN相似甚至更高的性能,也优越于A3C。同时,ACER算法应该是首个可以同时应用于连续动作空间和离散动作空间的算法,主要的创新点有:带有偏差纠正的裁剪重要性采样、随机Dueling网络架构、以及高效可信区域策略优化。

- 阅读剩余部分 -

在自然领域高速运动是很有挑战的,这是因为不同的领域需要机器人拥有不同的运动特性。若机器人尝试以更快的速度运行,那么领域变化对控制器性能的影响越来越大。解决这种问题一种可能的方式是设计精巧的模型和设计基于模型的控制器,即基于模型的控制(Model-Based Control, MBC)。然而,基于模型的控制器使机器人的行为和鲁棒性依赖于工程师的创新和大量时间的投入。同时,也需要设计控制尽可能简单以满足实时控制的要求。另外一种方式是基于完备的物理模型优化机器人动作,也即轨迹优化问题。由于完备物理模型的复杂性导致其几乎无法实时控制机器人。最后一种方法就是强化学习,这是一种基于学习的控制器,不需要精确的建模,智能体不断与环境交互使其自身累积奖励最大化,从而学习到鲁棒性较强的策略。

- 阅读剩余部分 -

深度学习分布式训练的典型方法是基于异步随机优化,这样的方式往往以增加由异步带来的随机噪音为代价。与之相反,同步的方式常常被认为不实际,这是因为部分workers需要浪费大量空闲时间等待拖后腿的wokers。文献[1]中作者们对同步的随机优化进行了改进,使深度学习算法可被高效的训练且性能得到提升。确切的说,缓和同步随机优化中拖后腿的方法是:只同步计算部分wokers的mini-batch梯度,其余的梯度drop掉。这种方式不仅减轻了拖后腿效应也避免了梯度的过时性。

- 阅读剩余部分 -

现实世界中,强化学习算法面对的往往是稀疏奖励环境。在稀疏奖励环境中,对探索产生了很大的挑战。这是因为稀疏奖励函数使智能体无法有意义的区分不同策略之间的区别。对稀疏奖励函数问题,处理该问题常见的方法是利用专家演示数据提供状态空间中高奖励区域的初始信号。然而,之前基于演示的方式往往使算法本身变得很复杂,且增加了实施以及调节超参数的难度。文献[1]作者们另辟蹊径,提出了MCAC算法了,既没有过多的增加模型复杂性,也没有增加额外的超参数。

- 阅读剩余部分 -