MSN:用于小样本学习的掩码孪生网络
cac55 2024-10-14 08:28 49 浏览 0 评论
原文:Assran M, Caron M, Misra I, et al. Masked Siamese Networks for Label-Efficient Learning[J]. arXiv preprint arXiv:2204.07141, 2022.
源码:https://github.com/facebookresearch/msn
我们提出了掩码孪生网络(Masked Siamese Networks,MSN),这是一种用于图像表示学习的自监督框架。MSN将随机掩码图像的表示与未掩码图像的表示进行匹配。这种自监督预训练策略在应用于ViT编码器时具有很好的可扩展性,因为编码器只需处理未掩码的图像patches即可。因此,MSN提高了联合嵌入架构的可扩展性,同时产生了在小样本图像分类任务上具有竞争力的高语义级别的表示。例如,在ImageNet-1K小样本图像分类任务上,MSN_ViT_Base模型只需5000张有标签的图像就能达到72.4%的Top-1精度;而在1%的ImageNet-1K标签上,MSN_ViT_Base模型的Top-1精度达到了75.7%,为这个基准上的自监督学习设置了一个新的SOTA水平。
★ 相关工作
MAE(掩码自编码器)是可扩展的计算机视觉自监督学习方法
BEiT:图像Transformer的BERT式预训练
iBOT:使用在线Tokenizer对图像进行BERT式预训练
DINO:自监督ViT的新特性
BYOL:一种新的自监督学习方法
SimCLR:一个简单的视觉表示对比学习框架
SimCLR v2:大型自监督模型是强大的半监督学习者
★ 论文故事
自监督学习(Self-Supervised Learning,SSL)已成为图像表示无监督学习的有效策略,无需大量的人工标注数据。自监督学习利用无标签数据对大模型进行预训练,使其学习到可用于下游任务的有用表示。
SSL的核心思想之一是删除部分输入,并使模型预测被删除的内容。自回归模型和去噪自编码器通过预测像素级或token级的缺失,在视觉领域实例化了这一原理。掩码自编码器(Masked Auto-encoder,MAE)通过重建随机掩码的patches来学习图像的表示,已成功应用于视觉任务。然而,优化重建损失需要对低级图像细节进行建模,而这些细节对于涉及语义抽象的分类任务是不必要的。因此,掩码自编码器生成的表示通常需要针对语义识别任务进行微调,这可能导致小样本条件下的过拟合问题。尽管如此,MAE已使大模型的自监督预训练成为可能,并且在使用大型数据集微调模型时表现出先进性能。
另一方面,联合嵌入架构避免了重建。孪生网络(Siamese Network)等方法通过训练编码器为同一图像的两个不同视图生成相似嵌入来学习表示。这里的视图通常是通过对输入应用不同的图像变换来构建的,如随机缩放、裁剪和颜色抖动。这种基于不变性的预训练引入的归纳偏差通常会产生高语义级别的强大表示,但通常会忽略有助于建模的局部结构。
在这项工作中,我们提出了掩码孪生网络MSN,这是一种自监督的学习框架,它利用了掩码去噪的思想,同时避免了像素级和token级的重建。如图3所示,给定一幅图像的两个视图,MSN对锚定视图进行随机掩码,而目标视图保持不变。MSN的目标是训练一个神经网络编码器(例如ViT),为两个视图输出相似的嵌入。在这个过程中,MSN不会在输入层预测被掩码的patches,而是通过匹配掩码输入与未掩码输入的表示,在表示层隐式地执行去噪步骤。图2定性地展示了MSN去噪的有效性。
图3:掩码孪生网络MSN的架构。首先,使用随机数据增强生成图像的两个视图,称为锚定视图和目标视图。然后,对锚定视图进行随机掩码,而目标视图保持不变。接着,将掩码锚定视图的表示与未掩码目标视图的表示进行匹配。这里采用标准交叉熵损失作为优化准则。
图2:当掩码率为70%时,MSN预训练的ViT-L/7编码器表示的可视化结果。
从经验上看,MSN学到了强大的图像表示,在小样本预测任务上表现非常出色(参见图1)。MSN使用的标签量比当前基于掩码思想的自编码器少了100倍,却依然实现了良好的分类性能。在标准的1% ImageNet小样本分类任务中,MSN训练的ViT-B/4(使用4x4像素的patch)达到了75.7%的top-1精度,优于之前800M参数的SOTA卷积网络,同时使用的参数减少了10倍以上(参见图1a)。
图1:在ImageNet-1K上预训练的自监督模型的小样本评估结果。
学习一个良好的表示不应该依赖大量样本,因此,我们考虑采用更具挑战性的小样本分类基准,每类仅使用1到5张有标签的图像(参见表2)。MSN在这一领域也实现了SOTA性能。例如,当每类只使用5张有标签图像时,MSN在ImageNet-1K上预训练的ViT-L/7的top-1精度达到了72.1%,比之前的SOTA方法DINO高出8%。
与掩码自编码器类似,MSN也表现出良好的可扩展性,因为ViT编码器只需处理未掩码的patches即可。例如,通过随机掩码70%的patches,MSN使用的计算量和内存比未掩码的联合嵌入基线少了一半。实际上,我们仅在18台AWS p4d-24xlarge机器上对ViT-L/7进行了预训练。如果没有掩码,同样的工作需要超过42台机器。
我们还表明,在其他自监督基准上(例如使用大量的标签进行端到端微调、线性评估、迁移学习等),MSN相对于之前的工作也是有竞争力的。
★ 模型方法
如图3所示,掩码孪生网络MSN的训练过程结合了基于不变性的预训练和掩码去噪思想。MSN首先使用随机数据增强生成一张图像的两个视图,称为锚定视图和目标视图。然后,对锚定视图进行随机掩码,而目标视图保持不变。与基于聚类的SSL方法类似,学习是通过计算锚定视图和目标视图的一组聚类中心的软分布来实现的。接着,MSN将掩码锚定视图的表示与未掩码目标视图的表示进行比较,计算损失。我们使用标准交叉熵损失来优化这个过程。与先前关于掩码图像建模的工作相比,MSN中的掩码去噪过程是判别式的,而不是生成式的。MSN架构不会直接预测掩码patches的像素值(或token)。相反,我们将损失直接应用于与编码器的[CLS] token相对应的输出。
图3:掩码孪生网络MSN的架构。
如图4所示,我们研究了对锚定视图掩码的两种策略,即随机掩码和Focal掩码。在应用随机掩码时,我们在序列中随机丢弃可能不连续的patches。相反,在应用Focal掩码时,我们随机选择锚定视图的一个局部连续块,并丢弃它周围所有的patches。
图4:锚定视图的掩码策略。
★ 实验结果
表1:极小样本量的实验结果。
表2:使用1%的ImageNet-1K标签量(每类约13张)进行小样本评估的结果。
表3:使用100%的ImageNet-1K标签量(每类约1280张)进行线性评估的结果。
表4:使用100%的ImageNet-1K标签量对ViT-B/16编码器进行端到端微调。MSN通过联合嵌入方法和自编码方法获得了有竞争力的性能。
表5:端到端微调。使用在ImageNet-1K上预训练的ViT-Base/16进行迁移学习。
表6:线性评估。使用在ImageNet-1K上预训练的ViT-Base/16进行迁移学习。
表7:掩码策略对ViT-B/16小样本分类精度的影响。通过结合随机掩码和Focal掩码策略,MSN获得了最强性能。
表8:随机掩码率对ViT小样本分类精度的影响。
表9:锚定视图生成策略对ViT-B/16小样本分类精度的影响。
表10:随机掩码率对GPU显存使用率和处理速度的影响。
表11:Sinkhorn对ViT-S/16小样本分类精度的影响。
表12:聚类中心(prototypes)数量对ViT-B/16小样本分类精度的影响。使用更多的聚类中心对模型性能几乎没有影响,但使用更少的聚类中心会降低模型的性能。
表13:MAE小样本评估结果。
表14:在ImageNet-A、ImageNet-R、ImageNet-Sketch和ImageNet-C上微调ViT-B/16的结果。
表15:在预训练和评估阶段进行掩码对模型性能的影响。
表16:掩码率对同一图像的掩码表示和原始表示之间的余弦相似度的影响。
图5:当掩码率为50%时,MSN预训练的ViT-B/8编码器表示的可视化结果。
图6:当掩码率为80%时,MSN预训练的ViT-B/8编码器表示的可视化结果。
图7:当不掩码时,MSN预训练的ViT-L/7编码器表示的可视化结果。
图8:当掩码率为70%时,MSN预训练的ViT-L/7编码器表示的可视化结果。
图9:当掩码率为90%时,MSN预训练的ViT-L/7编码器表示的可视化结果。
★ 总结讨论
我们提出了掩码孪生网络MSN,这是一种自监督学习框架,利用了掩码去噪的思想,同时避免了像素级和token级的重建。MSN能够学习强大的视觉表示,在小样本学习方面表现出色,同时提高了联合嵌入架构的可扩展性。
欢迎关注“多模态人工智能”公众号,一起进步^_^↑
相关推荐
- Mac电脑强制删除任何软件方法-含自启动应用
-
对于打工者来说,进入企业上班使用的电脑大概率是会被监控起来,比如各种流行的数据防泄漏DLP,奇安信天擎,甚至360安全卫士,这些安全软件你想卸载是非常困难的,甚至卸载后它自己又安装回来了,并且还在你不...
- Linux基础知识 | 文件与目录大全讲解
-
1.linux文件权限与目录配置1.文件属性Linux一般将文件可存取的身份分为三个类别,分别是owner/group/others,且三种身份各read/write/execute等权限文...
- 文件保护不妥协:2025 年 10 款顶级加密工具推荐
-
数据安全无小事,2025年这10款加密工具凭借独特功能脱颖而出,从个人到企业场景全覆盖,第一款为Ping32,其余为国外英文软件。1.Ping32企业级加密核心工具,支持200+文件格...
- 省心省力 一个软件搞定系统维护_省心安装在哪里能找到
-
◆系统类似于我们居住的房间,需要经常打理才能保持清洁、高效。虽然它本身也自带一些清理和优化的工具,但借助于好用的第三方工具来执行这方面的任务,会更让人省心省力。下面笔者就为大家介绍一款集多项功能于一身...
- JAVA程序员常用的几个工具类_java程序员一般用什么软件写程序
-
好的工具做起事来常常事半功倍,下面介绍几个开发中常用到的工具类,收藏一下,也许后面真的会用到。字符串处理:org.apache.commons.lang.StringUtilsisBlank(Char...
- 手工解决Windows10的若干难题_windows10系统卡顿怎么解决
-
【电脑报在线】很多朋友已经开始使用Win10,估计还只是测试版本的原因,使用过程中难免会出现一些问题,这里介绍解决一些解决难题的技巧。技巧1:让ProjectSpartan“重归正途”从10074...
- System32文件夹千万不能删除,看完这篇你就知道为什么了
-
C:\Windows\System32目录是Windows操作系统的关键部分,重要的系统文件存储在该目录中。网上的一些恶作剧者可能会告诉你删除它,但你不应该尝试去操作,如果你尝试的话,我们会告诉你会发...
- Windows.old 文件夹:系统备份的解析与安全删除指南
-
Windows.old是Windows系统升级(如Win10升Win11)或重装时,系统自动在C盘创建的备份文件夹,其核心作用是保留旧系统的文件、程序与配置,为“回退旧系统”提供保...
- 遇到疑难杂症?Windows 10回收站问题巧解决
-
回收站是Windows10的一个重要组件。然而,我们在使用过程中,可能会遇到一些问题。例如,不论回收站里有没有文件,都显示同一个图标,让人无法判别回收站的空和满的真实情况;没有了像Windows7...
- 卸载软件怎么彻底删掉?简单几个步骤彻底卸载,电脑小白看过来
-
日常工作学习生活中,我们需要在安装一些软件程序,但随着软件的更新迭代速度,很多时候我们需要重新下载安装新的程序,这时就需要将旧的一些软件程序进行卸载。但是卸载软件虽然很简单,但是很多小伙伴们表示卸载不...
- 用不上就删!如何完全卸载OneDrive?
-
作为Windows10自带的云盘,OneDrive为资料的自动备份和同步提供了方便。然而,从隐私或其他方面考虑,有些人不愿意使用OneDrive。但Windows10本身不提供直接卸载OneDri...
- 【Linux知识】Linux下快速删除大量文件/文件夹方法
-
在Linux下,如果需要快速删除大量文件或文件夹,可以使用如下方法:使用rm命令删除文件:可以使用rm命令删除文件,例如:rm-rf/path/to/directory/*这个命令会递...
- 清理系统不用第三方工具_清理系统垃圾用什么软件
-
清理优化系统一定要借助于优化工具吗?其实,手动优化系统也没有那么神秘,掌握了方法和技巧,系统清理也是一件简单和随心的事。一方面要为每一个可能产生累赘的文件找到清理的方法,另一方面要寻找能够提高工作效率...
- 系统小技巧:软件卸载不了?这里办法多
-
在正常情况下,我们都是通过软件程序组中的卸载图标,或利用控制面板中的“程序和功能”模块来卸载软件的。但有时,我们也会发现利用卸载图标无法卸载软件或者卸载图标干脆丢失找不到了,甚至控制面板中卸载软件的功...
- 麒麟系统无法删除文件夹_麒麟系统删除文件权限不够
-
删除文件夹方法例:sudorm-rf文件夹名称。删除文件方法例:sudorm-r文件名包括扩展名。如果没有权限,给文件夹加一下权限再删。加最高权限chmod775文件名加可执行权限...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- 如何绘制折线图 (52)
- javaabstract (48)
- 新浪微博头像 (53)
- grub4dos (66)
- s扫描器 (51)
- httpfile dll (48)
- ps实例教程 (55)
- taskmgr (51)
- s spline (61)
- vnc远程控制 (47)
- 数据丢失 (47)
- wbem (57)
- flac文件 (72)
- 网页制作基础教程 (53)
- 镜像文件刻录 (61)
- ug5 0软件免费下载 (78)
- debian下载 (53)
- ubuntu10 04 (60)
- web qq登录 (59)
- 笔记本变成无线路由 (52)
- flash player 11 4 (50)
- 右键菜单清理 (78)
- cuteftp 注册码 (57)
- ospf协议 (53)
- ms17 010 下载 (60)