wyli 发布的文章

CPVT：ViT的条件位置编码

作者: wyli
时间: 2024-04-01
分类: 基础模型
504 次阅读
1 条评论

在ViT中，可学习的绝对位置编码限制了模型输入序列的长度。同时，由于位置编码向量的唯一性造成模型不具有平移等变性。若直接抛弃掉位置编码，反而导致模型的性能降低；若对位置编码进行插值，从而处理更长的输入序列，则需要在下游任务中模型微调才能拥有较好的性能；若利用相对位置编码，因无法提供绝对位置信息导致性能略差于绝对位置编码。

- 阅读剩余部分 -

实时辐射场渲染的3D高斯喷溅

作者: wyli
时间: 2024-03-29
分类: 基础模型,视觉模型
572 次阅读
评论

网格与点云是3常见的3D场景表示，这是因为这些方式非常适合基于GPU快速的光栅化。与之相对，NeRF方法基于连续场景表示，利用捕获场景的新视角合成的体积光线行进对MLP优化。其中，最高效的辐射场景解决方案主要通过对在体素、哈希网格或点云之间插值实现渲染。虽然这些方法中的连续性有助于优化，但是随机采样的成本很高且噪音大。3D高斯喷溅是一种新颖的渲染方法，不仅能够实现实时渲染，而且渲染质量高

- 阅读剩余部分 -

SAM：分割任何事物

作者: wyli
时间: 2024-03-24
分类: 基础模型,视觉模型
314 次阅读
评论

SAM是一个图像分割的基础模型，该模型在大规模数据集上预训练，也属于可提示的模型。为了构建SAM模型，作者们定义了一个可提示的分割任务，创建了一个支持灵活提示和可实时输出分割掩码的模型架构。同时，为了训练模型，构建了一个数据引擎，可在利用模型辅助数据收集和基于新收集的数据模型之间迭代。如图1所示，构建SAM的三大元件：任务、模型、数据。

- 阅读剩余部分 -

Diffuser：敏捷行为合成的扩散规划器

作者: wyli
时间: 2024-03-23
分类: 模仿学习,Robot学习
484 次阅读
1 条评论

基于模型的RL算法往往需要先估计一个环境模型，然后再基于该模型进行轨迹优化。然而，现实任务估计出准确的环境模型很难，且可能不适合轨迹优化。若把规划或轨迹优化等同于采样问题，即直接生成轨迹，那么可规避掉模型不准确的问题。

- 阅读剩余部分 -

LL3DA：Omini-3D理解-推理-规划的视觉交互指令微调

作者: wyli
时间: 2024-03-21
分类: 基础模型,多模态模型
402 次阅读
评论

在LL3DA之前，3D视觉-语言多模态工作主要把2D视觉特征投射到3D空间，作为3D场景的表示，例如：3D-LLM。然而，这种方式需要大量的计算资源。与之不同，LL3DA以3D点云数据为输入，对文本指令和视觉提示进行响应。这种设计不仅能够处理置换不变3D场景embeddings与LLM的embeddings空间的矛盾，也能够抽取交互意识的3D场景embedding，用于高效指令跟随。

- 阅读剩余部分 -

DP3：3D扩散策略

作者: wyli
时间: 2024-03-20
分类: 模仿学习,Robot学习
438 次阅读
评论

扩散策略算法需要大量的演示数据才能实现较强的泛化性。然而，模仿学习算法收集任务相关的数据耗时很长。为了应对该挑战，DP3把3D视觉表示与扩散策略相整合。

- 阅读剩余部分 -