从Neural ODE到连续Normalizing Flows
Neural ODE通过神经网络建模隐藏状态变换的导数,从而构建隐藏状态连续变换模型。Neural ODE的建模方法应用归一化流模型,就可把离散归一化流变为连续归一化流,显著提升了模型表达力。
Neural ODE通过神经网络建模隐藏状态变换的导数,从而构建隐藏状态连续变换模型。Neural ODE的建模方法应用归一化流模型,就可把离散归一化流变为连续归一化流,显著提升了模型表达力。
根据通用近似定理,深度神经网络是万能函数拟合器。然而,这种视角无法解释RNN、LSTM、GRU、以及Transformer等网络架构存在的原因。本篇文章尝试站在信息论和矩阵计算的角度理解深度神经网络。
Score-Based扩散模型中表明可利用训练中不可获得的信息调节生成过程。这是因为conditional reverse-time SDE可高效的从unconditional分数中估计。为了实现可控生成,通常需要进行引导。接下来,详细介绍该两部分内容。
在解决控制任务时,RL呈现出样本效率低和模型表达能力有限的问题。为了提升RL的表达能力,一系列工作尝试把扩散模型与RL相结合。本篇文章主要介绍对于offline RL数据集,如何利用扩散模型解决RL问题,以及如何处理下游任务?
在Tutorial《Generative AI Meets Reinforcement Learning》中,讨论了如何把生成模型视为RL智能体与环境,以及如何把RL视为生成式建模?那么,生成式AI与RL之间会碰撞出什么样的火花呢?
行为基础模型(Behavior Foundation Model)是一种用于在动态环境中控制智能体行为的基础模型。BFMs通常在广泛的行为数据中进行训练,从而编码广泛的行为模式。这种特性使模型很容易泛化到不同的任务、上下文、或环境,证明了多样和自适应的行为生成能力。与VLA不同,BFMs直接控制智能体的行为,且主要为Humanoids设计的。
对于BFMs,首次提出于《Fast Adaptation with Behavioral Foundation Models》,其利用forward-backward表示框架构建行为基础模型,该框架不仅学习了基本特征,还学习了 successor features。接下来,对forward-backward表示和successor features进行详细的介绍。