wyli 发布的文章

RoFormer：旋转位置编码增强Transformer

作者: wyli
时间: 2024-04-01
分类: 理论,AI理论
602 次阅读
3 条评论

经典Transformer架构的位置编码属于绝对位置编码，即没有显式的包含相对位置信息。RoPE作者提出了旋转位置编码，利用旋转矩阵编码位置信息，且显式的包含相对位置信息。同时，对RoPE的推导和理论解释给出了详细的表述。

CPVT：ViT的条件位置编码

作者: wyli
时间: 2024-04-01
分类: 基础模型
864 次阅读
1 条评论

在ViT中，可学习的绝对位置编码限制了模型输入序列的长度。同时，由于位置编码向量的唯一性造成模型不具有平移等变性。若直接抛弃掉位置编码，反而导致模型的性能降低；若对位置编码进行插值，从而处理更长的输入序列，则需要在下游任务中模型微调才能拥有较好的性能；若利用相对位置编码，因无法提供绝对位置信息导致性能略差于绝对位置编码。

- 阅读剩余部分 -

实时辐射场渲染的3D高斯喷溅

作者: wyli
时间: 2024-03-29
分类: 基础模型,视觉模型
1064 次阅读
评论

网格与点云是3常见的3D场景表示，这是因为这些方式非常适合基于GPU快速的光栅化。与之相对，NeRF方法基于连续场景表示，利用捕获场景的新视角合成的体积光线行进对MLP优化。其中，最高效的辐射场景解决方案主要通过对在体素、哈希网格或点云之间插值实现渲染。虽然这些方法中的连续性有助于优化，但是随机采样的成本很高且噪音大。3D高斯喷溅是一种新颖的渲染方法，不仅能够实现实时渲染，而且渲染质量高

- 阅读剩余部分 -

SAM：分割任何事物

作者: wyli
时间: 2024-03-24
分类: 基础模型,视觉模型
570 次阅读
评论

SAM是一个图像分割的基础模型，该模型在大规模数据集上预训练，也属于可提示的模型。为了构建SAM模型，作者们定义了一个可提示的分割任务，创建了一个支持灵活提示和可实时输出分割掩码的模型架构。同时，为了训练模型，构建了一个数据引擎，可在利用模型辅助数据收集和基于新收集的数据模型之间迭代。如图1所示，构建SAM的三大元件：任务、模型、数据。

- 阅读剩余部分 -

Diffuser：敏捷行为合成的扩散规划器

作者: wyli
时间: 2024-03-23
分类: 模仿学习,Robot学习
817 次阅读
1 条评论

基于模型的RL算法往往需要先估计一个环境模型，然后再基于该模型进行轨迹优化。然而，现实任务估计出准确的环境模型很难，且可能不适合轨迹优化。若把规划或轨迹优化等同于采样问题，即直接生成轨迹，那么可规避掉模型不准确的问题。

- 阅读剩余部分 -

LL3DA：Omini-3D理解-推理-规划的视觉交互指令微调

作者: wyli
时间: 2024-03-21
分类: 基础模型,多模态模型
702 次阅读
评论

在LL3DA之前，3D视觉-语言多模态工作主要把2D视觉特征投射到3D空间，作为3D场景的表示，例如：3D-LLM。然而，这种方式需要大量的计算资源。与之不同，LL3DA以3D点云数据为输入，对文本指令和视觉提示进行响应。这种设计不仅能够处理置换不变3D场景embeddings与LLM的embeddings空间的矛盾，也能够抽取交互意识的3D场景embedding，用于高效指令跟随。

- 阅读剩余部分 -