为了使RL智能体能够部署到真实世界环境,必须要能够泛化到未观察到的环境。然而,RL很困难实现分布外的泛化,这是由于智能体往往过拟合于训练环境的细节。虽然监督学习的正则化技术可以被用于避免过拟合,但是RL与监督学习之间的差别限制了它们的应用。为了处理泛化性问题,SNR PUN作者们提出了信噪比正则化参数不确定性网络。

- 阅读剩余部分 -

经典的演化算法很难解决高纬问题。然而,Salimans等人的研究表明黑盒优化算法在机器人控制任务可展现与RL相媲美的性能。同时,演化策略拥有相对简单性、通用性、以及并行化的特点,因此对它的研究又产生了兴趣。Krzysztof等人利用结构化随机正交矩阵进行梯度近似,从而学习出了一个可快速训练和快速推理的策略。

- 阅读剩余部分 -

演化策略属于一类黑盒优化算法,可作为基于MDP框架的强化学习技术的替代方案。与RL相比,演化策略拥有扩展性强、对动作频率和延时奖励不变的特性、容忍极长时间窗口、以及不需要时序折扣或价值函数近似的优势。然而,该方法对较为困难的RL问题并不是非常有效。

- 阅读剩余部分 -

VAE相比,VQ-VAE的编码器输出是离散的编码。同时,利用向量量化(VQ)不仅可拥有方差小的特性,也可克服“后验坍塌”问题。其中,“后验坍塌”是指VAE的编码器若为性能优越的自回归解码器,那么隐式编码会被忽视。若隐式表示与可学习的自回归先验相结合,模型可生成高质量的样本,那么证明了学习到表示是高效用。

- 阅读剩余部分 -

机器学习理论中关键词生硬难懂,因此对部分关键词进行解析。
假设空间:学习任务的设定决定假设空间,从而也决定了可学性、复杂度。
概念类:假设空间中一个可解决任务的模式,也可以理解为函数。
泛化误差是指全量数据的误差,而经验误差是指采样数据的误差。

- 阅读剩余部分 -

深度神经网络对自然数据泛化上的成功与经典的模型复杂性概念不一致,且实验表明可拟合任意随机数据。论文On the Spectral Bias of Neural Networks通过傅立叶分析,研究深度神经网络的表达性,发现深度神经网络倾向于学习低频函数,也即是函数全局的变化无局部浮动。该特性与过参数化网络优先学习简单模式而泛化性强的特点一致。这种现象被称为场域偏差,不仅仅表现在学习过程,也表现在模型的参数化。

- 阅读剩余部分 -