YOLO12改进-模块-引入AFE模块 增强模型对复杂场景(如杂乱背景、小目标、半透明物体)的特征提取能力

发布于:2025-05-30 ⋅ 阅读:(111) ⋅ 点赞:(0)

        在语义分割任务中,复杂场景(如杂乱背景、半透明物体)下的语义线索捕捉是难点。现有方法(如基于 CNN 和 Transformer 的模型)存在以下局限:
        CNN:受限于局部感受野,难以建模长距离上下文和多尺度变化。
        Transformer:依赖全局自注意力,计算成本高且忽视局部细节,在杂乱背景中分割精度不足。
        混合模型:虽结合卷积和注意力,但对复杂场景下的语义信息提取仍不充分,尤其对半透明物体边界和多尺度目标处理能力有限。

上面是原模型,下面是改进模型

1.  AEF介绍 

AFE(自适应特征增强模块)的设计灵感来源于图像增强技术(如图像锐化和对比度增强),核心理论包括:

        空间上下文建模:通过大内核卷积(如 7×7)扩大感受野,捕捉多尺度空间上下文,解决目标尺度变化问题。

        特征频率分离高频细节:通过原图与平滑图的差值突出边缘和细节(类似图像锐化)。低频区域:通过原图与平滑图的逐元素相乘强化整体结构和语义区域(类似对比度增强)。

        并行特征融合:通过并行分支分别处理空间上下文和语义特征,再融合两者信息,实现从粗到细的特征增强。

AFE 模块由四个关键组件组成:

        卷积嵌入(CE):通过 1×1 卷积压缩通道数(如减半),降低计算量并促进特征混合。

        空间上下文模块(SCM):采用大内核分组卷积(如 7×7),扩大感受野以捕获多尺度空间信息。

        特征 refinement 模块(FRM)高频分支:通过深度卷积下采样 - 上采样生成平滑特征,与输入特征相减得到高频细节。低频分支:输入特征与平滑特征逐元素相乘,提取低频语义区域。融合:高频和低频特征经深度卷积后拼接,通过投影层输出增强特征。

        卷积多层感知机(ConvMLP):通过 1×1 卷积和多层感知机进一步增强特征表示。

  

 2. YOLOv12与AFE的结合      

        将 AFE 模块插入 YOLO12 的主干网络中,可增强模型对复杂场景(如杂乱背景、小目标、半透明物体)的特征提取能力:

         多尺度上下文建模:通过 SCM 的大内核卷积扩大感受野,提升对不同尺度目标的鲁棒性。

         语义细节增强:FRM 分离并融合高低频特征,既保留目标边缘细节,又强化整体语义结构,改善 YOLO12 在复杂场景下的检测和分割精度,尤其适用于工业检测、医疗影像等细粒度任务。    

3. AFE代码部分

YOLOv8_improve/YOLOV12.md at master · tgf123/YOLOv8_improve · GitHub

YOLO12模型改进方法,快速发论文,总有适合你的改进,还不改进上车_哔哩哔哩_bilibili

 4. 将AFE引入到YOLOv12中

第一: 先新建一个change_model,将下面的核心代码复制到下面这个路径当中,如下图如所示。YOLOv12\ultralytics\change_model。

            ​​​​​​     

第二:在task.py中导入

 ​​​       ​​​​​​​       

第三:在task.py中的模型配置部分下面代码

        ​​​​​​​​​​​​​​ ​​​​​​​​​​​​​​​​​​​​​   

第四:将模型配置文件复制到YOLOV12.YAMY文件中

  

     ​​​​​​​ ​​​​​​​​​​​​​​ ​​​​​​​ ​​​​​​​​​​​​​第五:运行代码


from ultralytics.models import NAS, RTDETR, SAM, YOLO, FastSAM, YOLOWorld

if __name__=="__main__":

    # 使用自己的YOLOv12.yamy文件搭建模型并加载预训练权重训练模型
    model = YOLO(r"E:\Part_time_job_orders\YOLO_NEW\YOLOv12_all\ultralytics\cfg\models\12\yolo12_AEE_Block.yaml")
        # .load(r'E:\Part_time_job_orders\YOLO_NEW\YOLOv12\yolo12n.pt')  # build from YAML and transfer weights

    results = model.train(data=r'E:\Part_time_job_orders\YOLO\YOLOv12\ultralytics\cfg\datasets\VOC_my.yaml',
                          epochs=300,
                          imgsz=640,
                          batch=64,
                          # cache = False,
                          # single_cls = False,  # 是否是单类别检测
                          # workers = 0,
                         # resume=r'D:/model/yolov8/runs/detect/train/weights/last.pt',
                          amp = True
                          )