EAI猩球

VIMA：多模态提示的通用机器人操纵

作者: wyli
时间: 2024-02-27
分类: 基础模型,VLA模型
评论
457 次阅读

机器人任务的表述有三种形式，分别是模仿one-shot演示、跟随语言指令、以及实现视觉目标。然而，这三种方式处理的任务不同，且模型也不同。基于提示的学习在自然语言处理领域展现了通用能力，单个模型可以处理各种各样的任务。VIMA是一个机器人领域的通用智能体，基于多模态提示学习的transformer架构。

- 阅读剩余部分 -

RoboFlamingo：视觉语言基础模型作为高效的机器人模仿者

作者: wyli
时间: 2024-02-26
分类: 基础模型,VLA模型
评论
556 次阅读

RoboFlamingo是一款新颖的视觉-语言操纵框架，建立在开源的视觉-语言模型OpenFlamingo基础之上。与之前的框架不同，它利用预训练的VLMs作为视觉-语言理解，基于明确的策略head建模序列历史信息，且只是在语言为条件的模仿学习操纵数据集上微调。最终，RoboFlamingo能够灵活的使用开环控制，且能够部署在低成本的设备上，模型的训练与评估也只是基于单个GPU的服务器实现。

- 阅读剩余部分 -

EfficientNet：重新思考CNN网络的扩展

作者: wyli
时间: 2024-02-25
分类: 基础模型,视觉模型
1 条评论
409 次阅读

在视觉领域，网络越深模型的精度越高，但是越深也意味着参数越多，从而需要越多的内存。因此，EfficientNet作者们围绕是否存在一个准则可以扩展卷积网络从而实现更高的精度和效率这一问题，研究了卷积网络的扩展。实验研究发现，平衡网络的宽度、深度、以及分辨率对性能很重要，而且这种平衡可通过一个常量系数扩展网络所实现。由此，作者们提出了复合扩展，如图1所示。

- 阅读剩余部分 -

概述多模态大语言模型的演进

作者: wyli
时间: 2024-02-24
分类: 基础模型,多模态模型
评论
509 次阅读

MLLM发展遵循着LLM的相似路径，Flamingo是第一个大规模探索上下文学习的视觉语言模型。之后，visual instruction-tuning很快成为了最重要的训练范式。如图1所示，MLLM至少包含三个元件：一个LLM backbone为用户提供接口、一个视觉编码器、以及一个或多个视觉语言自适应模块。

- 阅读剩余部分 -

VAE：自动编码变分贝叶斯

作者: wyli
时间: 2024-02-23
分类: 生成模型,基础模型
5 条评论
756 次阅读

VAE是要为带有连续隐变量的有向图模型推导出一个变分下界估计器，如图1所示。变分下界属于变分推断的内容，主要用于近似后验分布。

- 阅读剩余部分 -

基于非参数实例判别的无监督特征学习

作者: wyli
时间: 2024-02-22
分类: 基础模型
评论
364 次阅读

在监督学习任务中，发现，深度神经网络能够捕获语义相似性。如图1所示，在图片分类任务中，豹的子类与豹这个类别的可能性是最高的，而其它与豹完全不相关的类别的可能性最低，这说明深度神经网络能够捕获类别语义的相似性。这种语义相似性不是语义标签带来的，而是直接从视觉数据中学习得到的。那么，进一步地，能否学习一种表示，它能够反映出实例之间的相似性。

- 阅读剩余部分 -

VIMA：多模态提示的通用机器人操纵

RoboFlamingo：视觉语言基础模型作为高效的机器人模仿者

EfficientNet：重新思考CNN网络的扩展

概述多模态大语言模型的演进

VAE：自动编码变分贝叶斯

基于非参数实例判别的无监督特征学习

最新文章

标签云 (Top20)

分类