演化策略作为强化学习的一种可扩展替代方案
演化策略属于一类黑盒优化算法,可作为基于MDP框架的强化学习技术的替代方案。与RL相比,演化策略拥有扩展性强、对动作频率和延时奖励不变的特性、容忍极长时间窗口、以及不需要时序折扣或价值函数近似的优势。然而,该方法对较为困难的RL问题并不是非常有效。
VQ-VAE:离散表示学习
简论机器学习基石
机器学习理论中关键词生硬难懂,因此对部分关键词进行解析。
假设空间:学习任务的设定决定假设空间,从而也决定了可学性、复杂度。
概念类:假设空间中一个可解决任务的模式,也可以理解为函数。
泛化误差是指全量数据的误差,而经验误差是指采样数据的误差。
论神经网络的光谱偏差
深度神经网络对自然数据泛化上的成功与经典的模型复杂性概念不一致,且实验表明可拟合任意随机数据。论文On the Spectral Bias of Neural Networks通过傅立叶分析,研究深度神经网络的表达性,发现深度神经网络倾向于学习低频函数,也即是函数全局的变化无局部浮动。该特性与过参数化网络优先学习简单模式而泛化性强的特点一致。这种现象被称为场域偏差,不仅仅表现在学习过程,也表现在模型的参数化。