VoxPoser:利用大语言模型为机器人操作创建可组合的3D价值地图
语言是一个被压缩的媒介,人类通过它提炼与交流对世界的知识与经验。大语言模型作为捕获这种抽象的有前景的方式,通过把世界投射到语言空间从而学习表示世界。同时,大语言模型非常擅长推断语言为条件的affordance和约束。由此,VoxPoser作者们利用大语言模型的写代码能力,创建了稠密的3D体素网格地图,且通过协调感知模块把这些信息放入到视觉空间。然后,再把价值地图视作直接合成机器人轨迹的规划器的目标函数。
语言是一个被压缩的媒介,人类通过它提炼与交流对世界的知识与经验。大语言模型作为捕获这种抽象的有前景的方式,通过把世界投射到语言空间从而学习表示世界。同时,大语言模型非常擅长推断语言为条件的affordance和约束。由此,VoxPoser作者们利用大语言模型的写代码能力,创建了稠密的3D体素网格地图,且通过协调感知模块把这些信息放入到视觉空间。然后,再把价值地图视作直接合成机器人轨迹的规划器的目标函数。
对于机器人操作任务,对象位姿估计非常的重要。经典的实例级别的方法只能适用于特定的实例,这种方法通常需要CAD模型才能对新对象进行位姿估计。同时,类别级别的方法只能适用于特定类别,且训练数据的构造非常困难。为了处理这些限制,对任意对象的实时位姿估计受到到关注,主要有两种方法分别是有模型与无模型。其中,无模型的方法需要对象的参考图片。同时,位姿追踪利用时序线索实现高效、平滑的位姿估计。位姿追踪与位姿估计面临相同的限制。
根据综述论文简单介绍了一个基础模型在机器人中的应用,以及可赋予机器人的能力。同时,对各种任务进行简单的说明。
在ViT中,可学习的绝对位置编码限制了模型输入序列的长度。同时,由于位置编码向量的唯一性造成模型不具有平移等变性。若直接抛弃掉位置编码,反而导致模型的性能降低;若对位置编码进行插值,从而处理更长的输入序列,则需要在下游任务中模型微调才能拥有较好的性能;若利用相对位置编码,因无法提供绝对位置信息导致性能略差于绝对位置编码。
SAM是一个图像分割的基础模型,该模型在大规模数据集上预训练,也属于可提示的模型。为了构建SAM模型,作者们定义了一个可提示的分割任务,创建了一个支持灵活提示和可实时输出分割掩码的模型架构。同时,为了训练模型,构建了一个数据引擎,可在利用模型辅助数据收集和基于新收集的数据模型之间迭代。如图1所示,构建SAM的三大元件:任务、模型、数据。