学习一个任务的困难程度显著的受到数据表示方式的影响。根据相关文献,可知,数据生成因子的一个disentangled representation可适用于大量的任务与领域。其中,disentangled representation被定义为单个隐式单元对单个生成因子的变化较敏感,且对其它因子的变化保持相对不变。

同时,根据论文Building Machines That Learn and Think Like People,可知,真正类人学习和思考的机器,应具有:

  • 可构建支持解释与理解世界的因果模型,而不只是解决模式识别的问题。
  • 物理学和心理学直观理论的基础学习,从而支持和丰富所学到的知识。
  • 利用组合性和元学习实现快速获取和泛化知识到新的任务与情景。

根据disentangled representation定义,可知,利用学习到的disentangled representation,可实现快速学习新任务,即迁移学习。同时,通过组合disentangled representation,实现对新数据的零样本推理。由此可知,学习一个关于独立的数据生成因子的disentangled representation是使机器实现以类人方式学习与推理的基础。

$\beta$-VAE是一个disentangled因子学习的深度无监督生成式方式,该方法能够自动发现无监督数据变化的独立隐式因子。同时,可通过$\beta$因子调节学习约束,从而对隐式信息通道容量进行限制,且控制学习统计上独立的隐式因子程度。若$\beta=1$,那么与原始的VAE算法一致。若$\beta\gt1$,那么模型倾向于学习一个高效的隐式表示。在$\beta\gt1$的情况下,若数据中包含导致数据变化最少的潜在独立因子,那么该隐式表示为disentangled representation。

$\beta$-VAE的数学原理

集合$\mathcal{D}=\{X,V,W\}$由图片$\mathbf{x}\in\mathbb{R}^N$和两个真实数据生成的因子集合构成。这两个因子分别为:条件独立因子$\mathbf{v}\in\mathbb{R}^{K}$和条件依赖因子$\mathbf{w}\in\mathbb{R}^{H}$。假设数据$\mathbf{x}$由真实数据生成因子而生成,即$p(\mathbf{x}\vert\mathbf{v},\mathbf{w})=\mathbf{Sim}(\mathbf{v},\mathbf{w})$

$\beta$-VAE的目的是只利用样本$X$学习数据$\mathbf{x}$与生成式隐式因子$\mathbf{z}$的联合分布,从而利用$\mathbf{z}$生成$\mathbf{x}$,即$p(\mathbf{x}\vert\mathbf{z})\approx p(\mathbf{x}\vert\mathbf{v},\mathbf{w})=\mathbf{Sim}(\mathbf{v},\mathbf{w})$。因此,观测数据$\mathbf{x}$关于隐式因子$\mathbf{z}$的合适目标函数为最大似然估计
$$
\begin{aligned}
\underset{\theta}{max}\mathbb{E}_{p_{\theta}(\mathbf{z})}[p_{\theta}(\mathbf{x}\vert\mathbf{z})]
\end{aligned}\tag{1}
$$
为了确保推断隐式因子$q_{\phi}(\mathbf{z}\vert\mathbf{x})$以disentangled方式捕获生成因子$\mathbf{v}$,通过引入了一个使该后验分布与先验分布$p(\mathbf{z})$相匹配约束的方式实现,可见式(2)所示。
$$
\begin{aligned}
\underset{\phi,\theta}{max}\mathbb{E}_{x\sim\mathcal{D}}[\mathbb{E}_{q_{\phi}(\mathbf{z}\vert\mathbf{x})}[logp_{\theta}(\mathbf{x}\vert\mathbf{z})]]\qquad subject\quad to\quad D_{KL}(q_{\phi}(\mathbf{z}\vert\mathbf{x})\Vert p(\mathbf{z}))\lt\epsilon
\end{aligned}\tag{2}
$$

式(2)中$\epsilon$控制应用约束的强度。

那么,根据KKT条件,式(2)为
$$
\begin{aligned}
\mathcal{F}(\theta,\phi,\beta;\mathbf{x},\mathbf{z})=\mathbb{E}_{q_{\phi}(\mathbf{z}\vert\mathbf{x})}[logp_{\theta}(\mathbf{x}\vert\mathbf{z})]-\beta(D_{KL}(q_{\phi}(\mathbf{z}\vert\mathbf{x})\Vert p(\mathbf{z}))-\epsilon)
\end{aligned}\tag{3}
$$
根据KKT的互补松弛条件,可得
$$
\begin{aligned}
\mathcal{F}(\theta,\phi,\beta;\mathbf{x},\mathbf{z})\ge\mathcal{L}(\theta,\phi;\mathbf{x},\mathbf{z},\beta)=\mathbb{E}_{q_{\phi}(\mathbf{z}\vert\mathbf{x})}[logp_{\theta}(\mathbf{x}\vert\mathbf{z})]-\beta(D_{KL}(q_{\phi}(\mathbf{z}\vert\mathbf{x})\Vert p(\mathbf{z}))-\epsilon)
\end{aligned}\tag{4}
$$
由此,形成$\beta$-VAE的目标函数。

标签: VAEs

版权: 本篇博文采用《CC BY-NC-ND 4.0》,转载必须注明作者和本文链接

添加新评论