DINO:自监督视觉Transformer的新特性 作者: Evan-wyl 时间: 2024-07-12 分类: 基础理论,计算机视觉,基础模型 638 次阅读 评论 在自然语言处理领域,基于Transformer为网络架构的自监督预训练为任务提供了丰富的学习信号,从而实现了突破性进展。在视觉领域,ViT基于标签作为监督信号进行预训练,性能超过了基于ConvNets的模型。DINO作者们质疑ViT拥有优越性能是由监督信号导致的。由此,研究了基于ViT特征的自监督预训练的影响。- 阅读剩余部分 -