CPVT:ViT的条件位置编码
在ViT中,可学习的绝对位置编码限制了模型输入序列的长度。同时,由于位置编码向量的唯一性造成模型不具有平移等变性。若直接抛弃掉位置编码,反而导致模型的性能降低;若对位置编码进行插值,从而处理更长的输入序列,则需要在下游任务中模型微调才能拥有较好的性能;若利用相对位置编码,因无法提供绝对位置信息导致性能略差于绝对位置编码。
在ViT中,可学习的绝对位置编码限制了模型输入序列的长度。同时,由于位置编码向量的唯一性造成模型不具有平移等变性。若直接抛弃掉位置编码,反而导致模型的性能降低;若对位置编码进行插值,从而处理更长的输入序列,则需要在下游任务中模型微调才能拥有较好的性能;若利用相对位置编码,因无法提供绝对位置信息导致性能略差于绝对位置编码。
SAM是一个图像分割的基础模型,该模型在大规模数据集上预训练,也属于可提示的模型。为了构建SAM模型,作者们定义了一个可提示的分割任务,创建了一个支持灵活提示和可实时输出分割掩码的模型架构。同时,为了训练模型,构建了一个数据引擎,可在利用模型辅助数据收集和基于新收集的数据模型之间迭代。如图1所示,构建SAM的三大元件:任务、模型、数据。
基于模型的RL算法往往需要先估计一个环境模型,然后再基于该模型进行轨迹优化。然而,现实任务估计出准确的环境模型很难,且可能不适合轨迹优化。若把规划或轨迹优化等同于采样问题,即直接生成轨迹,那么可规避掉模型不准确的问题。