南理工提出FMC-DETR:巧用“频率解耦”,航拍小目标检测精度飙升8.2% AP50(南京理工cmu)

在广阔的航拍图像中,要准确地找出那些只占了几个像素点的微小目标,比如远处的车辆、行人,无疑是一项极具挑战性的任务。这就像是在一幅巨大的画卷中“找茬”,不仅考验眼力,更考验对整个画面的理解能力。这项技术在自然资源监测、交通管理、无人机搜救等领域至关重要。

目前的方法在处理这类问题时,常常陷入一个两难的境地:为了看清微小目标的细节,需要依赖网络浅层的、高分辨率的特征;但为了判断这个小目标到底是什么,又需要网络深层的、包含全局信息的上下文。如何有效地融合这两者,一直是个难题。

最近,来自南京理工大学的研究者们提出了一种全新的框架 FMC-DETR,巧妙地从“频域”入手,解决了这个难题。在他们的新论文 FMC-DETR: Frequency-Decoupled Multi-Domain Coordination for Aerial-View Object Detection中,他们通过解耦不同频率的信息,实现了对航拍小目标前所未有的精准检测。

  • 论文标题: FMC-DETR: Frequency-Decoupled Multi-Domain Coordination for Aerial-View Object Detection

  • 作者: Ben Liang, Yuan Liu, Bingwen Qiu, Yihong Wang, Xiubao Sui, Qian Chen

  • 机构: 南京理工大学

  • 论文地址: https://arxiv.org/abs/2509.23056

  • 代码仓库: https://github.com/bloomingvision/FMC-DETR

问题的核心:局部细节与全局上下文的“两难全”

在信号处理中,我们知道图像的高频部分对应着边缘、纹理等细节信息,而低频部分则对应着轮廓、背景等全局结构信息。

对于航拍小目标检测:

  • 高频细节至关重要,因为目标本身就很小,所有可用的视觉线索都包含在这些高频信息里。

  • 低频上下文同样不可或缺,它能帮助模型判断一个“小点”究竟是路灯、是车,还是噪声。

现有方法往往在网络深层才进行上下文融合,此时浅层的细节信息已经丢失很多。或者在融合时,全局信息(低频)会“污染”或“模糊”掉宝贵的局部细节(高频),导致性能瓶颈。

FMC-DETR:从频域入手,解耦多域协同

FMC-DETR的核心思想,就是 频率解耦(Frequency-Decoupled)。它不再将不同尺度的特征简单混合,而是先在频域上将它们分离开,有针对性地处理,最后再进行高效的多域协同(Multi-Domain Coordination)。

整个框架主要由三个创新模块构成:

1. WeKat骨干网 (Wavelet Kolmogorov-Arnold Transformer)

这是一个全新的骨干网络,也是实现频率解耦的关键。它包含两大“神器”:

  • 小波变换 (Wavelet Transform):在网络的浅层特征上,作者创新性地引入了级联小波变换。小波变换是信号处理中一种强大的工具,能完美地将信号分解为高频和低频部分。这样一来,模型就可以在不破坏高频细节(保留小目标)的前提下,单独增强低频的全局上下文感知能力。

  • Kolmogorov-Arnold网络 (KANs):这是近期非常火热的一种新型神经网络结构,理论上比传统的多层感知机(MLP)具有更强的非线性建模能力。作者用它来替代传统Transformer中的MLP,从而能更自适应地对多尺度特征之间的复杂依赖关系进行建模。

2. 轻量级跨阶段局部融合 (CPF)

这个模块用于高效地融合来自不同阶段的特征,它通过局部融合的方式,减少了冗余计算,提升了多尺度特征的交互效率。

3. 多域特征协同 (MDFC)

这是最后的“总指挥”。它将来自空间域(原始像素)、频率域(小波处理后)和结构先验(模型学到的)的信息进行统一,实现优势互补,最终在保留细节和增强全局感知之间取得完美平衡。

更少参数,更高精度:SOTA级的检测性能

FMC-DETR不仅设计巧妙,实际效果也相当惊人。在极具挑战性的VisDrone等航拍数据集上,它以更少的参数量,取得了当前最先进(SOTA)的性能。

与基线模型相比,FMC-DETR在VisDrone数据集上,将整体检测精度(AP)提升了 6.5%,将在小目标上更为关键的AP50指标提升了 8.2%!

从下面的可视化热力图对比中,我们可以直观地看到FMC-DETR的优势。对于密集的小目标(如车辆),基线模型的注意力(亮区)非常分散,而FMC-DETR的注意力则能精准地聚焦在每一个目标上,从而实现了更准确的检测,减少了漏检和误检。

与基线模型在不同数据集上的定性比较:

从中大家也可以看到此类小目标检测的难度的确不小。

FMC-DETR的成功,为应对计算机视觉中的多尺度问题,特别是小目标检测,提供了一个全新的、极具潜力的思路。作者也提供了代码仓库,期待后续代码的放出。

将信号处理中的频域分析思想引入到目标检测,大家觉得这个方向还有哪些潜力可挖?欢迎在评论区分享你的看法!

特别声明:[南理工提出FMC-DETR:巧用“频率解耦”,航拍小目标检测精度飙升8.2% AP50(南京理工cmu)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

58岁『王祖贤』大方露脸,画精致『妆容』,微微发福身形结实(54岁『王祖贤』近况)

若是其他女『明星』️做这样的事情,可能会被当作一个噱头,但在『王祖贤』身上,大家反倒觉得她是真心想把时间和精力投入到这件事上。相比之下,这样的场合最容易出现尴尬时刻,许多『明星』️站上台只剩寒暄、无所作为,而『王祖贤』显然不同,…

58岁『王祖贤』大方露脸,画精致『妆容』,微微发福身形结实(54岁『王祖贤』近况)

启点创新博展览馆实名制检票通道闸:人脸识别检票系统,人证合一验票闸机(启点科技城项目招标公告)

启点创新博展览馆采用实名制检票机制,要求观众在购票或预约时绑定真实身份信息,入场时通过专用通道完成身份核验,从源头上杜绝无效或非法入场,有效提升场馆的安全管理水平。 通过人脸识别检票系统积累的匿名化通行数据,…

启点创新博展览馆实名制检票通道闸:人脸识别检票系统,人证合一验票闸机(启点科技城项目招标公告)

精准校验护航电网安全:OC-ASC-System姿态传感器校验系统赋能一键顺控双确认技术

面对这一行业需求,南京谷贝电气科技有限公司凭借其在电力校验领域深厚的技术积淀,推出了专用于高精度方位角测量的OC-ASC-System姿态传感器校验系统。该系统为姿态传感器的性能评估提供了完整的实验室解决方…

精准校验护航电网安全:OC-ASC-System姿态传感器校验系统赋能一键顺控双确认技术

在『娱乐圈』️里当巨婴,连个电梯都不会按,卢昱晓表示自己没学过(在『娱乐圈』️里当咸鱼的小说)

这一次,关于不会按电梯的话题一经曝光,团队随之推向了笨蛋美人的人设,依旧是『赵露思』、田曦薇等人曾经验证过的安全牌:既美丽又有点废,既怂又甜,职场新人自带恋爱buff。卢昱晓只是被拧进这台机器里的又一颗螺母…

在『娱乐圈』️里当巨婴,连个电梯都不会按,卢昱晓表示自己没学过(在『娱乐圈』️里当咸鱼的小说)

罪有应得!官方彻查后,闫学晶再被扒猛料,最不该受牵连的人是她(罪有应得just)

谁料就因嫁给了林傲霏,硬生生被拖进这场舆论漩涡,连“吃空饷”的锅都莫名背上了——院方赶紧澄清是同名乌龙,可网友哪管这些,骂声照样劈头盖脸砸过来。闫学晶曾得意透露儿子靠这渠道进中戏,可人家中戏立马辟谣:2012…

罪有应得!官方彻查后,闫学晶再被扒猛料,最不该受牵连的人是她(罪有应得just)