分类基础模型下的文章

EfficientNet：重新思考CNN网络的扩展

作者: wyli
时间: 2024-02-25
分类: 基础模型,视觉模型
579 次阅读
1 条评论

在视觉领域，网络越深模型的精度越高，但是越深也意味着参数越多，从而需要越多的内存。因此，EfficientNet作者们围绕是否存在一个准则可以扩展卷积网络从而实现更高的精度和效率这一问题，研究了卷积网络的扩展。实验研究发现，平衡网络的宽度、深度、以及分辨率对性能很重要，而且这种平衡可通过一个常量系数扩展网络所实现。由此，作者们提出了复合扩展，如图1所示。

- 阅读剩余部分 -

概述多模态大语言模型的演进

作者: wyli
时间: 2024-02-24
分类: 基础模型,多模态模型
886 次阅读
评论

MLLM发展遵循着LLM的相似路径，Flamingo是第一个大规模探索上下文学习的视觉语言模型。之后，visual instruction-tuning很快成为了最重要的训练范式。如图1所示，MLLM至少包含三个元件：一个LLM backbone为用户提供接口、一个视觉编码器、以及一个或多个视觉语言自适应模块。

- 阅读剩余部分 -

VAE：自动编码变分贝叶斯

作者: wyli
时间: 2024-02-23
分类: 生成模型,基础模型
1029 次阅读
5 条评论

VAE是要为带有连续隐变量的有向图模型推导出一个变分下界估计器，如图1所示。变分下界属于变分推断的内容，主要用于近似后验分布。

- 阅读剩余部分 -

基于非参数实例判别的无监督特征学习

作者: wyli
时间: 2024-02-22
分类: 基础模型
539 次阅读
评论

在监督学习任务中，发现，深度神经网络能够捕获语义相似性。如图1所示，在图片分类任务中，豹的子类与豹这个类别的可能性是最高的，而其它与豹完全不相关的类别的可能性最低，这说明深度神经网络能够捕获类别语义的相似性。这种语义相似性不是语义标签带来的，而是直接从视觉数据中学习得到的。那么，进一步地，能否学习一种表示，它能够反映出实例之间的相似性。

- 阅读剩余部分 -

CMC：对比多视角编码

作者: wyli
时间: 2024-02-20
分类: 基础模型
792 次阅读
2 条评论

动物通过多个渠道感知世界，例如：眼睛接受光波较长的光渠道和耳朵接受高频的振动驱动。每个渠道都是有噪音的和不完备的，但是所有视角共享相同的重要因素，例如：物理、几何、以及语义。CMC作者提出了一个假设：一个表达力较强的表示应能够建模多视角不变的因素。因此，作者们在多视角对比学习框架下研究该假设，主要方式是最大化相同场景不同视角之间的互信息，反之最小化。最终，该方法可以扩展到任何数量的视角。如图1所示，CMC框架。

- 阅读剩余部分 -

SimCLR：一个简单的视觉表示对比学习框架

作者: wyli
时间: 2024-02-18
分类: 基础模型,视觉模型
1184 次阅读
评论

高效的视觉表示主流的方法可分为两类，分别是生成方式和判别方式。其中，生成方式需要像素级别的生成，产生很多不必要的计算量；判别方式是基于监督学习相似的目标函数学习视觉表示，因此需要设计监督学习的替代任务，这种方式会限制视觉表示的泛化性。SimCLR是一个简单的视觉表示对比学习框架，如图1所示。与之前的对比学习相比，SimCLR即不需要特别的架构，也不需要更多的内存，但是性能优越。

- 阅读剩余部分 -