YOLOFuse:面向多模态目标检测的双流融合框架介绍

发布于:2025-06-17 ⋅ 阅读:(15) ⋅ 点赞:(0)

YOLOFuse:面向多模态目标检测的双流融合框架

项目地址:https://github.com/WangQvQ/YOLOFuse

请添加图片描述


引言

在目标检测领域,常见的单一视觉输入(如 RGB 图像)在复杂场景下可能受到低照度、烟雾、雾霾等环境因素的影响,从而导致检测性能下降。为了解决这一问题,YOLOFuse 应运而生。

YOLOFuse 是一个基于 Ultralytics YOLO 的增强型目标检测框架,它通过双流(RGB + 红外 IR)协同处理与特征融合,在多种恶劣环境下均能保持高精度和高鲁棒性。本文将带你从零开始,快速了解并上手 YOLOFuse。


背景与动机

  • 为什么需要多模态?

    • 单一 RGB 图像在夜间、逆光或烟雾场景下信息不足;
    • 红外(IR)成像对光照不敏感,可补足 RGB 的盲点;
    • 两者互补,能显著提升检测的全面性与可靠性。
  • YOLOFuse 的目标

    • 在原生 YOLOv8 接口基础上,零成本迁移;
    • 提供多层次的融合策略,满足不同场景与算力需求;
    • 便捷的训练与推理脚本,帮助新手快速体验多模态检测。

核心特性

  1. 异构数据端到端处理
    支持同时加载 RGB 与 IR 图像,并在网络内部完成对齐与融合。

  2. 完整兼容 YOLOv8 API
    对原有 train.pydetect.py 等接口仅做增强,不破坏使用习惯。

  3. 多种融合策略可选

    • 数据级融合(Data-level Fusion):最简单、开销最小;
    • 早期特征融合(Early Fusion):在 backbone 前融合,保留更多模态信息;
    • 中期特征融合(Mid-level Fusion):在特征金字塔中部融合,性能与效率平衡;
    • 决策级融合(Decision-level Fusion):独立推理后融合结果,对算力要求较高。

在 LLVIP 数据集上的表现

模型架构 模态 精度 § 召回率 ® mAP50 mAP50–95 模型大小 GFLOPs
yolov8n (baseline) RGB 0.888 0.829 0.891 0.500 6.2 MB 8.1
yolo-fuse-中期特征融合 RGB + IR 0.951 0.881 0.947 0.601 2.61 MB 3.2
yolo-fuse-早期特征融合 RGB + IR 0.950 0.896 0.955 0.623 5.2 MB 6.7
yolo-fuse-决策级融合 RGB + IR 0.956 0.905 0.955 0.612 8.8 MB 10.7

请添加图片描述

可以看到,中期与早期特征融合在保持轻量化的同时,显著提升了精度和召回率。


数据组织规范

为了简化训练流程,YOLOFuse 采用与原生 YOLOv8 完全一致的目录结构,只需在同级文件夹中提供 IR 图像:

datasets/
├── images/        # RGB 图像
│   ├── train/     
│   └── val/       
├── imagesIR/      # 红外图像
│   ├── train/     
│   └── val/       
└── labels/        # YOLO 格式标注(仅基于 RGB)
    ├── train/     
    └── val/       
  • 文件名对齐:RGB 与 IR 图像同名,系统会自动配对;
  • 标注复用:只需基于 RGB 图像生成标注,IR 图像无需额外标注。

快速上手

以下步骤演示了从环境配置到模型训练与推理的完整流程。

1. 克隆仓库并安装

git clone https://github.com/WangQvQ/YOLOFuse.git
cd YOLOFuse
pip install -e .           # 可编辑模式安装

2. 准备数据

按照上文的目录规范,准备好 datasets/ 下的 RGB 与 IR 图像及对应的标签。

3. 启动训练

python train_dual.py

4. 执行推理

python infer_dual.py

推理结果将同时在 RGB 与 IR 图像上可视化,方便效果对比。


AutoDL 云端一键部署

YOLOFuse 已在 AutoDL 平台(CodeWithGPU)中提供预置环境,支持无需本地配置,直接在云端启动训练与推理。

请添加图片描述

点击下方链接,即可在浏览器中体验云端训练:

在 AutoDL 上打开 YOLOFuse


小结

本文从动机、架构、使用流程等方面,全面介绍了 YOLOFuse——一个面向多模态目标检测的双流融合框架。通过简单的目录规范与兼容性的 API 设计,即便是新手也能在短时间内体验多模态检测的强大效果。欢迎访问项目仓库,获取更多示例与预训练模型,开始你的多模态视觉探索之旅吧!

Happy Fusing! 🚀


网站公告

今日签到

点亮在社区的每一天
去签到