分类基础模型下的文章

SayCan：机器人Affordances中的基础语言模型

作者: wyli
时间: 2024-04-11
分类: 基础模型,VLA模型
1074 次阅读
1 条评论

大语言模拥有大量来自互联网文本语料的知识。然而，这些知识无法直接被具身智能体所使用。这是因为大语言模型不是建立在物理世界之上的，也无法观测它的生成对物理世界的影响。SayCan作者研究了为机器人从大语言模型中抽取知识，从而跟随指令的方法。其中，机器人拥有完成低级控制任务的技能库。具体来说，不仅利用LLMs解释指令，而且用于估计单个技能对完成高级别指令的可能性。若每个技能都有一个affordance函数，用于描述每个技能成功的概率，那么LLMs与affordance函数的相结合可估计每个技能完成指令成功的概率。其中，affordance函数使LLM意识到当前场景，也意识到机器人的能力边界。同时，这种方式可产生一个可解释的机器人完成指令执行的序列步骤。

- 阅读剩余部分 -

VoxPoser：利用大语言模型为机器人操作创建可组合的3D价值地图

作者: wyli
时间: 2024-04-10
分类: 基础模型,VLA模型
804 次阅读
评论

语言是一个被压缩的媒介，人类通过它提炼与交流对世界的知识与经验。大语言模型作为捕获这种抽象的有前景的方式，通过把世界投射到语言空间从而学习表示世界。同时，大语言模型非常擅长推断语言为条件的affordance和约束。由此，VoxPoser作者们利用大语言模型的写代码能力，创建了稠密的3D体素网格地图，且通过协调感知模块把这些信息放入到视觉空间。然后，再把价值地图视作直接合成机器人轨迹的规划器的目标函数。

- 阅读剩余部分 -

FoundationPose：统一新对象的6D位姿估计与追踪

作者: wyli
时间: 2024-04-09
分类: 基础模型,视觉模型
1534 次阅读
评论

对于机器人操作任务，对象位姿估计非常的重要。经典的实例级别的方法只能适用于特定的实例，这种方法通常需要CAD模型才能对新对象进行位姿估计。同时，类别级别的方法只能适用于特定类别，且训练数据的构造非常困难。为了处理这些限制，对任意对象的实时位姿估计受到到关注，主要有两种方法分别是有模型与无模型。其中，无模型的方法需要对象的参考图片。同时，位姿追踪利用时序线索实现高效、平滑的位姿估计。位姿追踪与位姿估计面临相同的限制。

- 阅读剩余部分 -

机器人中的基础模型：应用、挑战、以及未来

作者: wyli
时间: 2024-04-08
分类: 基础模型
512 次阅读
评论

根据综述论文简单介绍了一个基础模型在机器人中的应用，以及可赋予机器人的能力。同时，对各种任务进行简单的说明。

- 阅读剩余部分 -

CPVT：ViT的条件位置编码

作者: wyli
时间: 2024-04-01
分类: 基础模型
812 次阅读
1 条评论

在ViT中，可学习的绝对位置编码限制了模型输入序列的长度。同时，由于位置编码向量的唯一性造成模型不具有平移等变性。若直接抛弃掉位置编码，反而导致模型的性能降低；若对位置编码进行插值，从而处理更长的输入序列，则需要在下游任务中模型微调才能拥有较好的性能；若利用相对位置编码，因无法提供绝对位置信息导致性能略差于绝对位置编码。

- 阅读剩余部分 -

实时辐射场渲染的3D高斯喷溅

作者: wyli
时间: 2024-03-29
分类: 基础模型,视觉模型
979 次阅读
评论

网格与点云是3常见的3D场景表示，这是因为这些方式非常适合基于GPU快速的光栅化。与之相对，NeRF方法基于连续场景表示，利用捕获场景的新视角合成的体积光线行进对MLP优化。其中，最高效的辐射场景解决方案主要通过对在体素、哈希网格或点云之间插值实现渲染。虽然这些方法中的连续性有助于优化，但是随机采样的成本很高且噪音大。3D高斯喷溅是一种新颖的渲染方法，不仅能够实现实时渲染，而且渲染质量高

- 阅读剩余部分 -