分类 视觉模型 下的文章

NeRF是一个有前景的场景表示方法,可根据观测图片实现高质量的3D重建和新视角合成。然而,编辑NeRF表示的场景有很大的挑战,尤其是选择性的编辑特定场景和对象。为了解决该问题,DFFs作者们把2D图片特征抽取器的知识蒸馏到3D特征场,且同时优化辐射场。

- 阅读剩余部分 -

对于机器人操作任务,对象位姿估计非常的重要。经典的实例级别的方法只能适用于特定的实例,这种方法通常需要CAD模型才能对新对象进行位姿估计。同时,类别级别的方法只能适用于特定类别,且训练数据的构造非常困难。为了处理这些限制,对任意对象的实时位姿估计受到到关注,主要有两种方法分别是有模型与无模型。其中,无模型的方法需要对象的参考图片。同时,位姿追踪利用时序线索实现高效、平滑的位姿估计。位姿追踪与位姿估计面临相同的限制。

- 阅读剩余部分 -

网格与点云是3常见的3D场景表示,这是因为这些方式非常适合基于GPU快速的光栅化。与之相对,NeRF方法基于连续场景表示,利用捕获场景的新视角合成的体积光线行进对MLP优化。其中,最高效的辐射场景解决方案主要通过对在体素、哈希网格或点云之间插值实现渲染。虽然这些方法中的连续性有助于优化,但是随机采样的成本很高且噪音大。3D高斯喷溅是一种新颖的渲染方法,不仅能够实现实时渲染,而且渲染质量高

- 阅读剩余部分 -

SAM是一个图像分割的基础模型,该模型在大规模数据集上预训练,也属于可提示的模型。为了构建SAM模型,作者们定义了一个可提示的分割任务,创建了一个支持灵活提示和可实时输出分割掩码的模型架构。同时,为了训练模型,构建了一个数据引擎,可在利用模型辅助数据收集和基于新收集的数据模型之间迭代。如图1所示,构建SAM的三大元件:任务、模型、数据。

- 阅读剩余部分 -

深度学习在硬件的发展下,模型越做越大,但也需要越来越多的数据。然而,标注数据的成本是很高的。在自然语言处理领域,基于自回归和自编码无监督训练的方式,解决数据少的问题。与之相对的,计算机视觉领域的掩码自编码技术发展的很缓慢。MAE作者们对这种不同的原因进行了分析,结果如下:

  • 语言与视觉的信息密度不同。语言是人类创造的,拥有高度的语义和信息密度。在训练模型预测句子中丢失单词时,该任务似乎已到模型学习复杂的语言理解。然而,图片来自于自然界,拥有很强的冗余性,例如:丢失的部分可被邻居部分再次恢复,甚至直接都能被识别。
  • 自编码器的解码器映射隐式表示到输入,对于图片来说这种映射输出是低语义的,对语言来说这种映射输出是有丰富语义的。然而,BERT基于编码器就能学习到很丰富的语义信息,MAE需要编码器和解码器才能学习到丰富的语义。

- 阅读剩余部分 -