南理工提出FMC-DETR:巧用“频率解耦”,航拍小目标检测精度飙升8.2% AP50(南京理工cmu)

南理工提出FMC-DETR:巧用“频率解耦”,航拍小目标检测精度飙升8.2% AP50(南京理工cmu)

在广阔的航拍图像中,要准确地找出那些只占了几个像素点的微小目标,比如远处的车辆、行人,无疑是一项极具挑战性的任务。这就像是在一幅巨大的画卷中“找茬”,不仅考验眼力,更考验对整个画面的理解能力。这项技术在自然资源监测、交通管理、无人机搜救等领域至关重要。

目前的方法在处理这类问题时,常常陷入一个两难的境地:为了看清微小目标的细节,需要依赖网络浅层的、高分辨率的特征;但为了判断这个小目标到底是什么,又需要网络深层的、包含全局信息的上下文。如何有效地融合这两者,一直是个难题。

最近,来自南京理工大学的研究者们提出了一种全新的框架 FMC-DETR,巧妙地从“频域”入手,解决了这个难题。在他们的新论文 FMC-DETR: Frequency-Decoupled Multi-Domain Coordination for Aerial-View Object Detection中,他们通过解耦不同频率的信息,实现了对航拍小目标前所未有的精准检测。

  • 论文标题: FMC-DETR: Frequency-Decoupled Multi-Domain Coordination for Aerial-View Object Detection

  • 作者: Ben Liang, Yuan Liu, Bingwen Qiu, Yihong Wang, Xiubao Sui, Qian Chen

  • 机构: 南京理工大学

  • 论文地址: https://arxiv.org/abs/2509.23056

  • 代码仓库: https://github.com/bloomingvision/FMC-DETR

问题的核心:局部细节与全局上下文的“两难全”

在信号处理中,我们知道图像的高频部分对应着边缘、纹理等细节信息,而低频部分则对应着轮廓、背景等全局结构信息。

对于航拍小目标检测:

  • 高频细节至关重要,因为目标本身就很小,所有可用的视觉线索都包含在这些高频信息里。

  • 低频上下文同样不可或缺,它能帮助模型判断一个“小点”究竟是路灯、是车,还是噪声。

现有方法往往在网络深层才进行上下文融合,此时浅层的细节信息已经丢失很多。或者在融合时,全局信息(低频)会“污染”或“模糊”掉宝贵的局部细节(高频),导致性能瓶颈。

FMC-DETR:从频域入手,解耦多域协同

FMC-DETR的核心思想,就是 频率解耦(Frequency-Decoupled)。它不再将不同尺度的特征简单混合,而是先在频域上将它们分离开,有针对性地处理,最后再进行高效的多域协同(Multi-Domain Coordination)。

整个框架主要由三个创新模块构成:

1. WeKat骨干网 (Wavelet Kolmogorov-Arnold Transformer)

这是一个全新的骨干网络,也是实现频率解耦的关键。它包含两大“神器”:

  • 小波变换 (Wavelet Transform):在网络的浅层特征上,作者创新性地引入了级联小波变换。小波变换是信号处理中一种强大的工具,能完美地将信号分解为高频和低频部分。这样一来,模型就可以在不破坏高频细节(保留小目标)的前提下,单独增强低频的全局上下文感知能力。

  • Kolmogorov-Arnold网络 (KANs):这是近期非常火热的一种新型神经网络结构,理论上比传统的多层感知机(MLP)具有更强的非线性建模能力。作者用它来替代传统Transformer中的MLP,从而能更自适应地对多尺度特征之间的复杂依赖关系进行建模。

2. 轻量级跨阶段局部融合 (CPF)

这个模块用于高效地融合来自不同阶段的特征,它通过局部融合的方式,减少了冗余计算,提升了多尺度特征的交互效率。

3. 多域特征协同 (MDFC)

这是最后的“总指挥”。它将来自空间域(原始像素)、频率域(小波处理后)和结构先验(模型学到的)的信息进行统一,实现优势互补,最终在保留细节和增强全局感知之间取得完美平衡。

更少参数,更高精度:SOTA级的检测性能

FMC-DETR不仅设计巧妙,实际效果也相当惊人。在极具挑战性的VisDrone等航拍数据集上,它以更少的参数量,取得了当前最先进(SOTA)的性能。

与基线模型相比,FMC-DETR在VisDrone数据集上,将整体检测精度(AP)提升了 6.5%,将在小目标上更为关键的AP50指标提升了 8.2%!

从下面的可视化热力图对比中,我们可以直观地看到FMC-DETR的优势。对于密集的小目标(如车辆),基线模型的注意力(亮区)非常分散,而FMC-DETR的注意力则能精准地聚焦在每一个目标上,从而实现了更准确的检测,减少了漏检和误检。

与基线模型在不同数据集上的定性比较:

从中大家也可以看到此类小目标检测的难度的确不小。

FMC-DETR的成功,为应对计算机视觉中的多尺度问题,特别是小目标检测,提供了一个全新的、极具潜力的思路。作者也提供了代码仓库,期待后续代码的放出。

将信号处理中的频域分析思想引入到目标检测,大家觉得这个方向还有哪些潜力可挖?欢迎在评论区分享你的看法!

特别声明:[南理工提出FMC-DETR:巧用“频率解耦”,航拍小目标检测精度飙升8.2% AP50(南京理工cmu)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

DNF日落:传说中的神装,真的值这个价吗?(dnf落日余晖步枪外观)

“DNF日落”是《地下城与勇士》玩家社区中流传最广的神秘传说之一,被誉为“欧服限定神装”,拥有逆天属性与极低获取概率。本文深度揭秘其真实来历、属性机制与玩家追捧真相,揭开这把“太阳陨落”背后的秘密——它究竟是真神装,还是被神话的梦中情装?

DNF日落:传说中的神装,真的值这个价吗?(dnf落日余晖步枪外观)

Labubu展示盒:点亮家居空间的创意收纳魔法

你是否被家中凌乱的公仔和摆件所困扰?Labubu展示盒巧妙地结合了实用性与美学设计,成为现代家庭收纳新宠。本文将为你深入解析这一独特产品的设计理念、工作原理及其广泛应用场景。

Labubu展示盒:点亮家居空间的创意收纳魔法

24寸显示器多大尺寸?别被 “寸” 忽悠了!24 寸屏幕实际大小,看完再下单(显示屏24寸和27寸差多少)

居家办公时,它能提供准确的色彩还原和舒适的观看体验;娱乐休闲时,高刷新率带来丝滑流畅的视觉享受;专业设计时,广色域保证作品输出的色彩精准度;电竞游戏时,快速响应让你快人一步。HKC V2511正是这场技术民…

24寸显示器多大尺寸?别被 “寸” 忽悠了!24 寸屏幕实际大小,看完再下单(显示屏24寸和27寸差多少)

BY2冰蓝礼服透视装一穿,用身材优势解锁女人味场景『穿搭』(冰蓝和蓝礼服)

! BY2姐妹身着一袭冰蓝色礼服惊艳亮相,宛若深海精灵跃入人间。这身精心设计的透视装犹如月光下的薄雾轻纱,将曼妙身姿若隐若现地呈现于众人眼前。礼服采用『高级定制』的水晶网纱面料,在聚光灯下折射出粼粼波光,仿佛将整…

BY2冰蓝礼服透视装一穿,用身材优势解锁女人味场景『穿搭』(冰蓝和蓝礼服)

『赵丽颖』实力破谣言?刘学义合约?『周也』断档?『李沁』播剧?(『赵丽颖』实力怎样)

值得一提的是,近年来,随着网络视频平台的兴起,电视剧市场的竞争日益激烈,为了能够在众多作品中脱颖而出,吸引更多观众,平台方和剧方会采取各种宣传手段,提档播出就是其中之一 随着刘学义的合约即将到期,关于他未来…

『赵丽颖』实力破谣言?刘学义合约?『周也』断档?『李沁』播剧?(『赵丽颖』实力怎样)