青春在线 - 山东理工大学第一门户网站 - GitHub Pages
cac55 2025-11-03 19:15 2 浏览
针对视觉 Transformer(ViT)因其固有 “低通滤波” 特性导致深度网络中细节信息丢失的问题,我们提出了一种即插即用、受电路理论启发的 频率动态注意力调制(FDAM)模块。它通过巧妙地 “反转” 注意力以生成高频补偿,并对特征频谱进行动态缩放,最终在几乎不增加计算成本的情况下,大幅提升了模型在分割、检测等密集预测任务上的性能,并取得了 SOTA 效果。
该工作来自北京理工大学、RIKEN AIP和东京大学的研究团队。
- 论文全文: https://arxiv.org/abs/
- 作者主页: https://linwei-chen.github.io
- 实验室主页: https://ying-fu.github.io
- 开源代码: https://github.com/Linwei-Chen/FDAM
研究背景:为什么这是一个重要的问题?
视觉 Transformer(ViT)无疑是近年来计算机视觉领域最耀眼的明星。它凭借强大的全局建模能力,在图像分类、目标检测、语义分割等众多任务上刷新了纪录。然而,当我们构建更深、更强大的 ViT 模型时,一个 “隐秘的角落” 里的问题逐渐浮出水面:模型看世界,怎么越来越模糊了?
这并非错觉。对于分割、检测这类需要精确定位的 “密集预测” 任务而言,图像的边缘、纹理等高频细节至关重要。但研究发现,ViT 中的核心部件 —— 自注意力机制(Self-Attention),其本质上像一个低通滤波器。这意味着每经过一层注意力,图像特征中的高频细节就会被削弱一分,而平滑的低频结构则被保留和增强。当我们将数十个这样的 “滤波器” 堆叠起来,灾难性的 “频率消失”(Frequency Vanishing)现象便发生了:网络深层的特征几乎完全丢失了细节信息,导致表征坍塌(Representation Collapse),最终输出的预测结果自然也就模糊不清、边界不准。
正如上图所示,在标准的 ViT 中,高频信息随着层数加深迅速衰减至零。解决这一根本性缺陷,释放 ViT 在高清视觉任务上的全部潜力,是当前领域亟待突破的关键瓶颈。
现有方法的局限性
此前,一些工作尝试缓解 ViT 的 “过平滑” 问题,例如通过正则化或直接在频域上对衰减的高频信号进行静态补偿(如 AttnScale, NeuTRENO 等)。这些方法起到了一定作用,但它们更像是 “亡羊补牢”—— 在细节丢失后进行被动修复,而未能从根本上改变注意力机制的低通天性。它们缺乏一种动态、自适应的能力,来根据不同图像内容和任务需求,灵活地处理全频谱的视觉信息。
FDAM 的核心思想是什么?
既然问题出在注意力机制这个 “元件” 上,我们能否重新设计这个 “电路”?我们的核心思想,源于经典的电路理论。
想象一下音响上的均衡器。标准注意力就像一个只有 “重低音”(Low-Pass)的旋钮,它会滤掉清亮的高音。我们如何凭空造出一个 “高音”(High-Pass)旋钮呢?电路理论给了我们一个绝妙的启示:高通滤波器 = 全通滤波器 - 低通滤波器。
这个简单的公式正是我们方法的核心 —— 注意力反转(Attention Inversion, AttInv)。
- “全通滤波器” 是什么?就是未经处理的原始特征,它包含了所有频率的信息。
- “低通滤波器” 是什么?就是标准注意力模块处理后的特征,它只保留了低频成分。
两者相减,得到的 “残差” 不就恰好是那些被滤掉的高频细节么?
基于此,我们的 AttInv 模块不再是单一的低通滤波器。在每一层,它都同时拥有了原始的 “低通” 路径和我们创造的 “高通” 路径。更关键的是,我们引入了一个轻量级的动态 “混音器”,让模型能够根据图像上每个区域的特点,自主学习是该更关注平滑的整体结构(低频),还是更聚焦于锐利的边缘纹理(高频)。当这样的模块堆叠起来,模型便拥有了 2^L 种(L 为层数)复杂的频率组合能力,能够拟合出远比之前丰富多样的频率响应。
方法的关键组成部分
当然,仅有 “低音” 和 “高音” 两个旋钮对于专业音响师来说还不够。为了实现更精细的 “调音”,我们设计了第二个关键组件:频率动态缩放(Frequency Dynamic Scaling, FreqScale)。
FreqScale 就像一个多频段图形均衡器。它将特征图转换到频域,将其划分为多个频段,并为每个频段学习一个动态的增益权重。这样,模型不仅能区分高低频,还能根据需要精确地 “增强” 或 “抑制” 某个特定频段的信号,例如,为分割任务特别增强中高频的边缘信号。
FDAM = AttInv (粗调高低频) + FreqScale (精调各频段)。两者结合,构成了一套完整、高效且自适应的全频谱解决方案。
实验效果有多惊艳?
我们的 FDAM 模块是 “即插即用” 的,可以轻松集成到各种主流 ViT 架构中,且带来的参数量和计算量开销微乎其微。但效果的提升却是实实在在的:
定量展示:
- 在语义分割任务中,FDAM 为轻量的 SegFormer-B0 在 ADE20K 数据集上带来了 + mIoU 的巨幅提升。对于强大的 DeiT3-Base,FDAM 依然能稳定提升 + mIoU,达到了 % 的 SOTA 性能。
- 在目标检测与实例分割的 “兵家必争之地” COCO 数据集上,FDAM 赋能 Mask DINO,将检测 AP 提升了 +,分割 AP 提升了 +,效果显著。
- 在遥感图像检测 DOTA 数据集上,我们的方法同样取得了当前单尺度设定的最优成绩。
定性展示:
- “一图胜千言”。从下方的特征图对比中可以直观地看到,标准 DeiT 的特征图(b)细节模糊,而经过 FDAM 增强后的特征图(c)轮廓清晰、纹理锐利,物体的结构被完美地保留了下来。其对应的频谱图(e)也证实了我们的方法保留了更丰富的高频成分。
理论支撑:
- 我们的方法不仅效果好,理论上也站得住脚。分析表明,FDAM 能有效抵抗表征坍塌,其 “有效秩”(Effective Rank)在网络深层远高于基线模型,证明了特征的多样性得到了更好的维持。
这项工作意味着什么?
FDAM 的价值不仅在于刷新了几个 SOTA 点数,更在于:
1. 提供了新视角:它成功地将经典的电路理论思想引入到前沿的 Transformer 设计中,为解决深度学习中的基础问题(如信息衰减)提供了一个全新的、符合第一性原理的思考框架。
2. 解决了真问题:它精准地定位并有效解决了 ViT 在密集预测任务中的一个核心痛点 ——“频率消失”,将 ViT 的潜力更充分地释放出来。
3. 兼具实用与优雅:作为一个轻量、即插即用的模块,FDAM 可以毫不费力地为现有模型 “增压”,在工业界和学术界都有着巨大的应用潜力。
这项工作可能会推动社区在需要高清细节的领域(如医学影像分析、高分辨率遥感、自动驾驶感知)中更广泛地应用和探索更深层的 ViT 模型。
未来可以探索的方向
FDAM 也为未来研究打开了新的大门。例如,我们是否可以设计一个完全在频域中进行动态路由的全新网络结构?这种频率调制的思想能否被拓展到视频、三维点云甚至多模态数据中?这些都是激动人心的未来方向。
欢迎在 ICCV 现场与我们交流!
作者介绍:
付莹是北京理工大学计算机学院的教授、博士生导师,入选国家高层次青年人才计划。她的研究领域主要为人工智能、计算机视觉与计算摄像学。近五年,她在中科院一区期刊和 CCF A 类会议上发表了超过 篇论文。她的研究成果已应用于 “嫦娥工程”、智慧城市建设等重要项目。她主编的《计算机视觉基础》教材入选北京理工大学 “十四五” 规划教材。她获得的荣誉包括 ICML 杰出论文奖、日内瓦国际发明展金奖,并入选中国图象图形学学会石青云青年女科学家奖和中国电子学会青年科学家奖等。此外,付教授还担任 TIP 等期刊的编委,并担任 CVPR、ICCV 等顶级会议的领域主席。
谷林(Lin Gu)是 RIKEN AIP(理化学研究所)的研究科学家,同时也是东京大学的特别研究员。他的研究重点是通过进化方法开发新一代人工智能,旨在超越人脑的局限性。
谷林先生的研究涵盖了计算机视觉、医学成像、大型语言模型(LLM)、机器人技术甚至核聚变等多个领域。 他在 Nature Methods、PAMI、IJCV、AAAI 等顶级期刊和会议上发表了 多篇论文。此外,他还是 Pattern Recognition 期刊的副主编,并担任 ICCV、ICML、NeurIPS 和 ICLR 等多个会议的领域主席。
目前,谷林先生是日本内阁府监督的国家级项目 “Moonshot Program” 的项目经理,并担任 RIKEN-MOST 项目的日本首席研究员(PI),该项目专注于通过人工智能技术对精神分裂症进行亚型分类和早期诊断。
陈林蔚,北京理工大学计算机学院博士。主要研究方向为计算机视觉,重点关注图像分割、目标检测、低光照图像增强与识别以及图像生成等领域。截至目前,他已发表论文十余篇,其中多篇以第一作者身份发表在国际计算机视觉顶级期刊和会议(如 TPAMI、IJCV、CVPR、ICLR、ISPRS)上。在学术社区贡献方面,他担任 IJCV、TIP、CVPR、ICCV、NeurIPS、AAAI 等多个期刊会议的审稿人,并在国际计算机视觉会议 BMVC 中因专业素养和贡献被评为 杰出审稿人。
相关推荐
- 我的抗战演员表全部_我的抗战演员表全部名单
-
霍啸林,是抗战剧勇敢的抗战中的角色。由男演员杨志刚饰演。他曾经是一个不学无术的少爷。后来在父亲霍绍昌被赵金虎杀后才懂得的世间的冷暖。后来选择了抗日救国,最后被日本侵略者砍下脑袋。勇者的抗战霍啸林大结局...
- 虐到肝疼的超级虐文短篇现代言情
-
《送你一枝野百合》作者:罪加罪从校园到都市,双向暗恋,女追男+追妻火葬场,这本真的绝,甜虐交织,推拉一绝,今年看过的最好看的文。罪加罪真的好厉害,讲故事的能力很强。作者罪加罪真的好厉害,又会写甜,又会...
- 海洋天堂观后感_海洋天堂观后感一千字
-
海洋天堂结局:是大福像从前趴在父亲背上一样,伏在海龟的身上,和他一起游。他费尽心力地教大福自己坐公交车去海洋馆,在海洋馆擦地。为了不让大福感到孤独,他不惜拖着病重的身体,背着自制的龟壳扮成海龟,陪着大...
- 无敌战神林北_无敌战神林北1130
-
五年前,被陷害入狱!五年后,他荣耀归来,天下权势,尽握手中!我所失去的,终会千百倍的拿回来! 此一刻,天空之城,整个议事大厅,鸦雀无声…&nb...
- 虫儿飞原唱_虫儿飞原唱郑伊健
-
原唱郑伊健主唱,童声伴唱歌曲歌词:黑黑的天空低垂,亮亮的繁星相随,虫儿飞,虫儿飞,你在思念谁。天上的星星流泪,地上的玫瑰枯萎,冷风吹,冷风吹,只要有你陪,虫儿飞花儿睡,一双又一对才美,不怕天黑,只怕心...
- 黑莓视频_黑莓视频素材
-
看视频没问题!只是他是四方屏幕,不能满屏观看,而且屏幕又小!这个黑莓打电话发信息上上网还是可以的。看视频就一般般啦!
- 最霸气的十首诗_笛子最霸气的十首诗
-
一生必读的十首霸气古诗词有:《观沧海》、《赤壁》、《过零丁洋》、《夏日绝句》、《石灰吟》、《满江红》、《赴戍登程口占示家人·其二》、《从军行》、《雁门太守行》和《无题·龙卧千江水自流》。这些诗词或表达...
- 你是我藏不住的甜_你是我藏不住的甜最新章节
-
第五十四章!小说甜而不腻,有些接地气,作者文笔流畅,句句写进人心,情节套路新颖,不是烂大街的剧情,在读的时候,最大的体验就是感觉书里出现的那些人好像我们身边也有。《偷偷藏不住》刚开始看到书名的时候,我...
- 神级奶爸免费阅读全文_神级奶爸格格党
-
尚不清楚。因为张汉是一个虚构角色,他的结局取决于他的作者和故事情节的发展。如果现有的小说或影视作品已经完成,那么可以据此判断他的结局;如果还有未完成的作品,那么他的结局还不确定。需要等待后续的剧情发展...
- 哆啦a梦主题曲歌词_哆啦a梦主题曲歌词罗马音
-
1:“?”是的,我给你讲一下哆啦A梦主题曲的国语版歌词。1,哆啦A梦主题曲的国语版歌词是这样的:小小的希望被星星守护夜空之下未来是创造这世界的奇迹用画笔绘出期待与创意将...
- 十大最强机械怪兽_十大最强机械怪兽实力排行
-
金谷桥,艾雷王,艾斯杀手,机械哥莫拉,我现在只想起来这些1嘎拉蒙不是机器怪兽。2嘎拉蒙是一个虚构的角色,不是真实存在的机器怪兽。他是一只来自外太空的生物,具有超能力和变形能力。3嘎拉蒙在动画片和...
- 绝密押运40集免费观看_电视剧绝密押运全集
-
是假象的卧底,其实都是蝴蝶帮干的,武警没有卧底只是赵野是警察安在银行的卧底而已私家车恶意插队是在第二集。绝密押运第二集剧情:陶涛到九中队报到,被分配到警卫连。九中队军容整齐,军纪严明,营区内布满...
- 海之边夜未增减板全季_海之边境
-
大海是有边的。虽然说大海看起来无边无际,但它总是有尽头的。太平洋是最宽广的,但它的东边是美洲,西边是亚洲,北边是白领海峡,南边一直到南极洲,它也是有头的。其他有印度洋,北冰洋,大西洋,它们也都是有尽头...
- 夏至桑旗全文免费阅读_夏至桑旗免费阅读目录
-
《初婚有错》女主夏至,男主桑棋。作者芭了芭蕉。简介:年轻貌美的女记者忽然怀孕了,孩子不是老公的。当做金丝鸟被圈养,却不知道对方是谁;有一天晚上,一个人爬上了她的床,“怎么是你”桑旗开了一家绣坊,夏至辞...
- 权力的游戏第7集完整版_权力的游戏第1集完整版
-
1、史塔克家族的北境王国2、霍尔家族的河屿王国(河间地+铁群岛)3、艾林家族的山谷王国4、杜兰登家族的风暴地风暴王国5、兰尼斯特家族的西镜凯岩王国6、园丁家族的河湾地河湾王国7、纳梅洛斯·马泰尔家族的...
- 一周热门
- 最近发表
- 标签列表
-
