分类 基础模型 下的文章

MLLM发展遵循着LLM的相似路径,Flamingo是第一个大规模探索上下文学习的视觉语言模型。之后,visual instruction-tuning很快成为了最重要的训练范式。如图1所示,MLLM至少包含三个元件:一个LLM backbone为用户提供接口、一个视觉编码器、以及一个或多个视觉语言自适应模块。

- 阅读剩余部分 -

在监督学习任务中,发现,深度神经网络能够捕获语义相似性。如图1所示,在图片分类任务中,豹的子类与豹这个类别的可能性是最高的,而其它与豹完全不相关的类别的可能性最低,这说明深度神经网络能够捕获类别语义的相似性。这种语义相似性不是语义标签带来的,而是直接从视觉数据中学习得到的。那么,进一步地,能否学习一种表示,它能够反映出实例之间的相似性。

- 阅读剩余部分 -

动物通过多个渠道感知世界,例如:眼睛接受光波较长的光渠道和耳朵接受高频的振动驱动。每个渠道都是有噪音的和不完备的,但是所有视角共享相同的重要因素,例如:物理、几何、以及语义。CMC作者提出了一个假设:一个表达力较强的表示应能够建模多视角不变的因素。因此,作者们在多视角对比学习框架下研究该假设,主要方式是最大化相同场景不同视角之间的互信息,反之最小化。最终,该方法可以扩展到任何数量的视角。如图1所示,CMC框架。

- 阅读剩余部分 -

高效的视觉表示主流的方法可分为两类,分别是生成方式和判别方式。其中,生成方式需要像素级别的生成,产生很多不必要的计算量;判别方式是基于监督学习相似的目标函数学习视觉表示,因此需要设计监督学习的替代任务,这种方式会限制视觉表示的泛化性。SimCLR是一个简单的视觉表示对比学习框架,如图1所示。与之前的对比学习相比,SimCLR即不需要特别的架构,也不需要更多的内存,但是性能优越。

- 阅读剩余部分 -

生成式对抗网络虽然概念上直接,但是其背后的理论值得深究。简单来说,GAN定义了两个网络,分别是生成网络$G(z;\theta_g)$和判别网络$D(x;\theta_d)$。生成网络基于先验分布$p_z(z)$生成数据$x$的分布$p_g$。判别网络用于判别样本来自于训练数据$x$而不是$p_g$的概率。

- 阅读剩余部分 -