【A18】面向全天候交通场景的无人机视角多模态小目标检测算法设计【杭州师范大学】
发布时间: 2026-02-12 16:12:45

《A类赛题手册》下载地址:https://www.fwwb.org.cn/news/show/598

1.命题方向

智能计算

2.题目类别

计算类

3.题目名称

面向全天候交通场景的无人机视角多模态小目标检测算法设计

4.背景说明

【整体背景】

随着“新基建”和智慧城市建设的深入推进,智能交通系统(ITS)已成为缓解城市拥堵、降低事故率的关键手段。无人机(UAV)凭借其机动灵活、视野广阔、成本低廉的优势,正逐渐取代固定的路侧监控摄像头,成为交通巡检的“天眼”。

然而,真实的交通场景极其复杂:

Ø 视角特殊:无人机高空俯视导致车辆、行人等目标在图像中占比极小(即“小目标”),特征极其不明显。

Ø 环境多变:光照变化、雾霾天气、夜间低光照环境严重影响可见光相机的成像质量。

Ø 密度极高:城市道路拥堵时,目标密集遮挡,极易造成漏检和误检。

为了实现全天候、高精度的交通态势感知,单纯依靠可见光(RGB)图像已捉襟见肘,结合热红外(Thermal/Infrared)成像的多模态融合检测技术成为行业亟需突破的技术高地。

【单位背景】

杭州师范大学数学学院拥有深厚的学术底蕴,其数学学科不仅是浙江省一流学科,更稳居ESI全球排名前1%,拥有数学一级学科博士学位授权点,为数据科学与人工智能专业领域的发展奠定了坚实的理论基石。在此基础上成立的大数据科学研究院,是学校响应国家大数据战略、对接杭州“数字之城”产业需求的科研特区,现已成为长三角地区具有重要影响力的数据智能创新高地。

在数据科学与人工智能领域,学院与研究院坚持“基础理论引领,应用落地驱动”的科研路线。依托省部级科研平台,科研团队在运筹优化、机器学习理论、复杂数据分析及智能计算等核心领域取得了一系列突破性成果,在顶刊、顶会发表大量高水平论文。同时,单位积极推动产学研深度融合,将AI技术广泛应用于智慧医疗、智慧教育及杭州城市大脑优化中,有效解决了多个行业关键共性技术难题,社会服务成效显著。

学校层面给予了该领域前所未有的大力支持。作为学校优先发展的战略高地,研究院实行“人才特区”政策,大力引进海内外顶尖人才,组建了多支高水平、国际化的创新团队。此外,学校持续加大在高性能计算平台、大数据中心等硬件设施上的投入,提供了充足的科研经费和一流的实验环境,全力保障从算法创新到场景应用的无缝衔接。杭州师范大学数学学院、大数据科学研究院将继续依托杭州数字经济、低空经济、具身智能等产业优势,深耕人工智能基础数学理论,赋能数据要素价值释放,致力于建设成为国内一流的数据科学人才培养基地与科技创新引擎。

【业务背景】

目前,本命题单位长期深耕于空地一体化智慧交通解决方案。在实际业务中,我们发现现有的AI算法在白天光照充足时表现尚可,但在夜间、阴雨天或远距离高空巡航时,对小汽车、行人、三轮车等小目标的检测精度大幅下降,导致无法准确统计车流量或及时发现交通事故。为了解决这一痛点,急需一套能够融合可见光与红外热成像数据的高效检测算法,赋予无人机在全天候环境下“明察秋毫”的能力,推动交通违章抓拍、拥堵治理等业务真正落地。

5.项目说明

【问题说明】

参赛团队需要解决无人机航拍交通场景下的三大核心技术难题:

Ø 极小目标检测:目标在图像中像素占比往往小于32x32,甚至更小,特征在卷积过程中极易丢失。

Ø 多模态数据融合:如何有效地融合可见光的纹理色彩信息与红外的热辐射信息?简单的通道叠加往往效果不佳,需要设计巧妙的特征融合机制。

Ø 多类别与密集遮挡:场景中包含车辆、货车、大巴等多种类别,且存在严重的重叠遮挡现象。

【用户期望】

用户期望获得一个高精度、鲁棒性强的目标检测模型。

Ø 全天候适应:无论是白天强光还是夜晚全黑、以及雨雪雾霾等天气,模型都能利用双光互补特性准确识别目标。

Ø 小目标精准:对远距离的小型车辆和非机动车有极高的召回率。

Ø 算法创新:鼓励使用Transformer、注意力机制、特征金字塔(FPN)改进、Anchor-free等前沿技术进行架构创新,而不仅仅是调参。

6.任务要求

【开发说明】

参赛团队可基于深度学习框架(PyTorch/TensorFlow等),设计并训练一个针对无人机视角的多模态目标检测模型。

Ø 数据处理:对RGB与红外图像进行预处理。

Ø 模型构建:设计双流或多分支网络架构,提取不同模态特征并进行融合。需重点优化小目标检测头的设计。

Ø 训练与调优:使用训练集进行模型训练,解决正负样本不平衡、模态不平衡问题。

Ø 推理演示:编写推理脚本,输入测试图片/视频,输出带有检测框和类别的可视化结果。

【技术要求与指标】

Ø 开发环境:推荐使用 Python 3.8+, PyTorch 1.8+或TensorFlow 2.x。

Ø 目标类别:需检测至少5类交通目标。

性能指标:

以下指标只作为衡量模型在可参考数据集上的效果对比,但比赛评审打分不局限于这些指标,还要看实际应用效果的展示情况。

Ø 精度指标:在参考测试数据集上的 mAP@0.5或mAP@0.5:0.95 建议不低于现有基于YOLO或Transformer等的基线模型。

Ø 融合有效性:双光融合模型的精度需优于仅使用单模态(仅RGB或仅红外)的基准模型。

Ø 小目标性能:针对像素面积小于32x32的目标,性能指标需有针对性优化设计说明。

Ø 推理速度:在常规消费级GPU(如RTX4090)上,推理速度(FPS)建议不低于15帧/秒,需具备一定的实时处理潜力。

【提交材料】

1)项目概要介绍;

2)项目简介PPT;

3)项目详细方案;

4)项目演示视频;

5)企业要求提交的材料:

① 项目简介PPT:包含算法架构图、创新点、实验对比数据等

项目详细技术方案文档,建议包含以下内容:详细阐述网络结构设计(特别是融合模块和小目标增强模块);训练策略(Loss函数设计、数据增强方法、超参数设置);消融实验分析(证明你的改进模块是有效的);

③ 演示视频:建议展示算法在不同场景下的检测效果;

6)团队自愿提交的其他补充材料。

【任务清单】

Ø 调研YOLO系列、R-CNN系列及最新的Transformer检测算法,阅读关于RGB-T(可见光-热成像)融合的文献等。

Ø 分析赛题数据集特点(分辨率、目标分布、光照条件)。

Ø 搭建基线模型(Baseline),跑通训练流程。

Ø 设计改进方案:如引入注意力机制(如CBAM, SE)或设计特征融合模块等。

Ø 针对小目标进行优化:如改进FPN结构、使用SPD-Conv、增加检测头等。

Ø 进行模型训练、验证与测试,生成最终检测结果。

Ø 撰写技术文档与制作演示材料。

7.参考信息

可参考数据集资源:

本赛题数据集可自行收集或基于开源数据集DroneVehicle或VEDAI进行筛选和适配。(如有其它数据集亦可,在参赛提交文档中需注明数据集来源)

[1] DroneVehicle数据集:https://github.com/VisDrone/DroneVehicle?tab=readme-ov-file

[2] VEDAI数据集:https://downloads.greyc.fr/vedai/

参考算法与论文关键词:

Ø 基础检测器: YOLOv8/v10, Faster R-CNN, TOOD.

Ø 小目标优化: Feature Pyramid Networks (FPN), Dilated Convolution, Copy-Paste Augmentation.

Ø 多模态融合: Early/Middle/Late Fusion, Cross-Modality Attention, CFT (Cross-Modality Fusion Transformer).

8.评分要点

赛题评分要点见附件一:A类企业命题初赛统一评分标准

订阅号