分类 计算机视觉 下的文章
DFF:通过特征场蒸馏分解NeRF用于编辑
NeRF:利用神经辐射场作为场景表示用于视角合成
NeRF是一个利用全连接深度网络优化潜在连续体积场景函数的方法合成新视角的方法。该方法有两个步骤,分别是场景表示和体积渲染,可见图1所示。
FoundationPose:统一新对象的6D位姿估计与追踪
对于机器人操作任务,对象位姿估计非常的重要。经典的实例级别的方法只能适用于特定的实例,这种方法通常需要CAD模型才能对新对象进行位姿估计。同时,类别级别的方法只能适用于特定类别,且训练数据的构造非常困难。为了处理这些限制,对任意对象的实时位姿估计受到到关注,主要有两种方法分别是有模型与无模型。其中,无模型的方法需要对象的参考图片。同时,位姿追踪利用时序线索实现高效、平滑的位姿估计。位姿追踪与位姿估计面临相同的限制。
实时辐射场渲染的3D高斯喷溅
SAM:分割任何事物
SAM是一个图像分割的基础模型,该模型在大规模数据集上预训练,也属于可提示的模型。为了构建SAM模型,作者们定义了一个可提示的分割任务,创建了一个支持灵活提示和可实时输出分割掩码的模型架构。同时,为了训练模型,构建了一个数据引擎,可在利用模型辅助数据收集和基于新收集的数据模型之间迭代。如图1所示,构建SAM的三大元件:任务、模型、数据。