VoxPoser:利用大语言模型为机器人操作创建可组合的3D价值地图
语言是一个被压缩的媒介,人类通过它提炼与交流对世界的知识与经验。大语言模型作为捕获这种抽象的有前景的方式,通过把世界投射到语言空间从而学习表示世界。同时,大语言模型非常擅长推断语言为条件的affordance和约束。由此,VoxPoser作者们利用大语言模型的写代码能力,创建了稠密的3D体素网格地图,且通过协调感知模块把这些信息放入到视觉空间。然后,再把价值地图视作直接合成机器人轨迹的规划器的目标函数。
语言是一个被压缩的媒介,人类通过它提炼与交流对世界的知识与经验。大语言模型作为捕获这种抽象的有前景的方式,通过把世界投射到语言空间从而学习表示世界。同时,大语言模型非常擅长推断语言为条件的affordance和约束。由此,VoxPoser作者们利用大语言模型的写代码能力,创建了稠密的3D体素网格地图,且通过协调感知模块把这些信息放入到视觉空间。然后,再把价值地图视作直接合成机器人轨迹的规划器的目标函数。
对于机器人操作任务,对象位姿估计非常的重要。经典的实例级别的方法只能适用于特定的实例,这种方法通常需要CAD模型才能对新对象进行位姿估计。同时,类别级别的方法只能适用于特定类别,且训练数据的构造非常困难。为了处理这些限制,对任意对象的实时位姿估计受到到关注,主要有两种方法分别是有模型与无模型。其中,无模型的方法需要对象的参考图片。同时,位姿追踪利用时序线索实现高效、平滑的位姿估计。位姿追踪与位姿估计面临相同的限制。
根据综述论文简单介绍了一个基础模型在机器人中的应用,以及可赋予机器人的能力。同时,对各种任务进行简单的说明。
自回归解码器推理的成本很高,这是因为每个解码步骤加载解码器权重和所有注意力的keys与values的内存带宽很高。多查询注意力MAQ利用多个查询头但只有一个键与值,因此内存带宽的需求大大降低。然而,MQA会导致模型质量退化且训练不稳定。而且,为了优化质量与推理速度,单独训练一个模型不可行。
对于标准随机梯度下降,$L_2$正则化与权重衰退正则化的作用是相同。然而,对于自适应梯度下降算法,例如:Adam,这种等效不存在。确切的说,由于大部分深度学习库中正则化利用的是$L_2$,从而导致部分任务中利用带有动量的SGD进行优化产生的性能优于自适应梯度下降算法优化产生的模型。AdamW梯度下降算法通过对权重衰减与学习率设置进行解耦合,从而提升Adam算法的泛化性。
在深度神经网络中,LayerNorm用于帮助稳定化训练且提升模型的拟合能力。这是因为LayerNorm对输入和权重矩阵具有re-centering与re-scaling不变的特性。然而,随着网络加深,尤其是RNN,因计算量越来越大导致LayerNorm带来性能的成本越来越高。由此,在LayerNorm的re-centering不变属于不必要的假设下,RMSNorm基于均方根进行标准化,且使模型拥有re-scaling不变的特性和学习率的隐式自适应能力。