wyli 发布的文章

从运动追踪任务洞悉基础学习系统的构建

一个学习系统由四大核心模块构成，分别是数据、学习算法、学习目标以及训练方法。其中，学习算法由网络架构和算法构成；学习目标可通过损失函数构建，或者RL中训练环境中奖励函数构建。

在考虑人形机器人追踪参考运动时，经常需要计算机器人与参考运动之间的“局部位置差”。一说到局部位置计算，简单粗暴的理解是：只要有两者做差和坐标系变化的操作就行。然而，不同的计算方法有着很大的区别。实际上，“局部位置差”应该表达为机器人坐标系下参考位置与当前位置之间的距离。

为了解决多任务问题，RL中的MoE网络架构MOORE通过正交化表示的方式，提升神经网络的表达能力。这种方式相当于对神经网络施加了约束Stiefel Manifold约束。那么，这种约束对神经网络有什么影响呢？

Neural ODE通过神经网络建模隐藏状态变换的导数，从而构建隐藏状态连续变换模型。Neural ODE的建模方法应用归一化流模型，就可把离散归一化流变为连续归一化流，显著提升了模型表达力。

根据通用近似定理，深度神经网络是万能函数拟合器。然而，这种视角无法解释RNN、LSTM、GRU、以及Transformer等网络架构存在的原因。本篇文章尝试站在信息论和矩阵计算的角度理解深度神经网络。

Score-Based扩散模型中表明可利用训练中不可获得的信息调节生成过程。这是因为conditional reverse-time SDE可高效的从unconditional分数中估计。为了实现可控生成，通常需要进行引导。接下来，详细介绍该两部分内容。