EAI猩球

Stiefel Manifolds及其对MOORE网络的约束

为了解决多任务问题，RL中的MoE网络架构MOORE通过正交化表示的方式，提升神经网络的表达能力。这种方式相当于对神经网络施加了约束Stiefel Manifold约束。那么，这种约束对神经网络有什么影响呢？

Neural ODE通过神经网络建模隐藏状态变换的导数，从而构建隐藏状态连续变换模型。Neural ODE的建模方法应用归一化流模型，就可把离散归一化流变为连续归一化流，显著提升了模型表达力。

根据通用近似定理，深度神经网络是万能函数拟合器。然而，这种视角无法解释RNN、LSTM、GRU、以及Transformer等网络架构存在的原因。本篇文章尝试站在信息论和矩阵计算的角度理解深度神经网络。

Score-Based扩散模型中表明可利用训练中不可获得的信息调节生成过程。这是因为conditional reverse-time SDE可高效的从unconditional分数中估计。为了实现可控生成，通常需要进行引导。接下来，详细介绍该两部分内容。

在解决控制任务时，RL呈现出样本效率低和模型表达能力有限的问题。为了提升RL的表达能力，一系列工作尝试把扩散模型与RL相结合。本篇文章主要介绍对于offline RL数据集，如何利用扩散模型解决RL问题，以及如何处理下游任务？

在Tutorial《Generative AI Meets Reinforcement Learning》中，讨论了如何把生成模型视为RL智能体与环境，以及如何把RL视为生成式建模？那么，生成式AI与RL之间会碰撞出什么样的火花呢？