【医学目标检测】LN-DETR:一种基于多尺度特征融合的肺结节检测高效Transformer架构

发布于:2025-06-12 ⋅ 阅读:(42) ⋅ 点赞:(0)

LN-DETR: An efficient Transformer architecture for lung nodule detection with multi-scale feature fusion
LN-DETR:一种基于多尺度特征融合的肺结节检测高效Transformer架构

在这里插入图片描述
论文链接

摘要

肺癌仍是全球主要致死病因之一,早期检测对提高患者生存率至关重要。传统肺结节检测方法效率低下且准确性不足,难以满足临床需求。尽管深度学习方法在医学影像分析领域取得进展,现有技术对形态复杂的小结节检测效果仍不理想,存在漏检与假阳性问题。此外,既往模型的高计算复杂度阻碍了实时检测。针对这些挑战,本研究提出名为LN-DETR的基于Transformer的肺结节检测模型。该模型整合了基于部分卷积的高效多尺度注意力模块(PC-EMA)、分组混洗卷积跨尺度特征融合模块(GS-CCFM),并创新性引入通道Transformer模块(CTrans)。PC-EMA将高效多尺度注意力与部分卷积相结合,在优化计算效率的同时增强多尺度特征提取能力;GS-CCFM采用分组混洗卷积(GSConv)实现高效的跨尺度特征融合;CTrans模块通过跨通道注意力机制进一步强化特征融合性能。在LUNA16和天池肺结节数据集上的实验表明,LN-DETR在检测精度、计算效率和模型复杂度方面均优于现有目标检测模型。在LUNA16数据集上取得91.5%的F1分数和93.1%的平均精度(mAP);天池数据集上F1分数达87.4%,mAP为86.4%,均显著超越基线模型。此外,参数总量与计算开销的降低使该模型更适于广泛临床应用。

关键词:肺结节检测、Transformer、多尺度特征、特征融合、注意力机制

1.引言

根据2020年全球癌症调查报告,肺癌是全球最常见的恶性肿瘤之一,也是癌症相关死亡的主要原因[1]。研究表明早期检测可使患者5年生存率提升约60%[2],而晚期患者5年生存率仅为10%–15%。但早期肺癌患者通常无明显症状,其肺部病理特征多表现为小结节。肺癌早期以肺结节形式呈现,通常为圆形、透明或不规则的肺部病灶,直径可达30毫米[3]。此外,肺结节可根据位置(边界清晰型、胸膜下型及血管周围型)和形状(圆形与与不规则型),以及质地(实性、部分实性及非实性)。其中不规则型与部分实性结节最易发生恶性病变[4]。因此,对肺结节的及时诊断与分析[5]成为治疗和预防肺癌的首要手段,患者参与诊疗的时间越早,生存概率越高[6]。临床医学中,通过影像学检测肺结节是肺癌筛查的第一步,统计数据显示该筛查方式可使肺癌发病率降低20%[7]。根据《中国人工智能白皮书》,每位患者检查时会产生约200至300张计算机断层扫描(CT)图像,每位放射科医师每日需审阅至少4万张图像。与机器不同,医生长时间机械化读片会导致注意力与准确度下降,可能导致漏诊[8]。此外,肺部医学影像中结节尺寸微小、形态多样且位置多变的特点,增加了肺结节识别的难度,从而提高了误诊和漏诊的风险。因此,开发一种自动化肺结节检测方法以辅助放射科医师提升检测效率与准确性具有重要意义。

近年来,深度学习尤其是卷积神经网络(CNNs)在医学影像分析领域取得了显著进展[9,10]。在肺结节检测中,CNN模型已得到广泛应用并取得良好效果。例如,Setio等人[11]提出基于多视角CNNs的肺结节检测方法,通过融合不同角度的二维切片信息提升了检测精度;Dou等人[12]采用三维卷积神经网络实现CT图像中肺结节的自动检测,显著降低了假阳性率。然而这些方法通常依赖深层网络结构和大参数量,导致模型复杂度高、计算开销大,难以满足实时检测需求。此外,由于肺结节体积小、形态多变且边缘模糊,传统CNN模型在提取多尺度特征和处理小目标方面存在局限。以强大特征表示能力著称的Transformer架构逐渐被引入计算机视觉领域,在目标检测任务中展现出良好性能[13,14]。医学影像分析中Transformer模型[15]也开始受到关注,但在肺结节检测任务中,结节的小尺寸和复杂形态使得现有Transformer模型仍面临小目标处理和多尺度特征表达的挑战,难以在满足实时检测要求的同时保证检测精度。

基于上述挑战,我们对Transformer模型RT-DETR(实时检测变换器)[16]进行了重大改进,提出了用于肺结节检测的LN-DETR模型,其检测性能优于现有最先进模型。本研究的主要贡献如下:

(1) 为解决传统卷积运算与注意力机制在捕捉肺结节多尺度特征方面的局限性,我们提出PC-EMA模块。该模块通过将高效多尺度注意力机制(EMA)[17]与PConv[18]相结合,在优化计算效率的同时增强了多尺度特征提取能力。

(2) 在LN-DETR的特征提取过程中引入CTrans模块[19],以增强模型在多尺度特征融合与跨通道信息捕获方面的性能。CTrans模块采用跨通道注意力机制,由通道交叉融合变换器(CCT)和通道交叉注意力(CCA)子模块构成。该设计有效缓解了特征融合过程中语义差异造成的困难,强化了不同尺度特征间的交互作用。

(3) 通过将GSConv[20]集成至CCFM并优化,开发出GS-CCFM模块以实现高效的跨尺度特征融合,同时降低计算复杂度。GSConv混合了深度可分离卷积与标准卷积,并采用通道混洗技术以增强不同通道间的信息交互。这提升了模型捕捉肺结节全局与局部特征的能力,从而在不影响推理速度的前提下提高检测精度。

(4) 基于上述对RT-DETR的改进,本文提出专用于肺结节检测的LN-DETR模型。在LUNA16、天池肺结节等公开数据集上的实验表明,LN-DETR在性能上优于其他最先进模型。

2.相关工作

2.1. 传统肺结节检测方法

传统肺结节检测算法主要依赖人工特征提取和经典机器学习技术。Kim等[21]基于结节尺寸和形态学特征提取候选区域,并结合纹理特征识别真实结节。Messay等[22]采用形态学处理和灰度阈值方法,通过对比度调整突出结节以实现检测。Mum等[23]利用图像序列变化检测识别新出现或变化的结节,适用于动态监测。J. P. Ko等[24]通过三级阈值分割与特征提取实现更精确的结节检测。基于支持向量机(SVM)的检测方法如Madero等[25]采用Daubechies小波变换进行数据降噪以提高检测精度。Aarthy等[26]通过结合多尺度小波边缘检测与核函数映射分类对SVM方法进行改进。尽管取得一定实验进展,这些方法流程繁琐、易受噪声干扰且检测效率低下,难以满足大规模临床应用需求。此外,较高的假阳性率也限制了这些算法的实用价值。

2.2. 基于卷积神经网络的检测方法

随着深度学习技术的进步,卷积神经网络(CNN)在医学图像处理中的成功促使多种基于CNN的目标检测模型被应用于肺结节检测领域。YOLO(You Only Look Once)系列模型因其高精度与实时性优势受到广泛关注。Zhou等人提出的CAF-YOLO模型通过引入多尺度特征融合技术,在检测不同尺寸病灶时表现出优越性能[27];Ji等人通过优化YOLOv5s的特征提取模块与检测头结构,显著提升了检测精度[28];Chen团队开发的STBi-YOLO模型进一步优化了肺结节识别的速度与效率,可支持临床实时应用[29];Yang等人提出的YOLOvX采用加权双向递归特征金字塔算法增强了检测性能[30]。然而传统CNN模型在处理小目标和多尺度目标时仍存在局限:肺结节通常体积微小且形态多样,易导致CNN模型出现漏检或误检;此外深度CNN模型计算负荷大,难以实现实时检测,制约了其临床应用。

2.3. 基于Transformer的检测方法

Transformer模型最初在自然语言处理领域取得成功后,被引入计算机视觉领域。凭借其强大的全局特征提取能力,该架构迅速成为目标检测的新框架。检测Transformer(DETR)[13]利用全局特征捕获和集合推理能力,在复杂检测任务中表现卓越,并逐步应用于医学图像分析。然而DETR在处理小目标和复杂背景时存在局限,尤其在低质量CT图像中对小结节的敏感度不足。近期研究者通过引入可变形卷积等技术改进DETR,以适应复杂医学图像中肺结节检测的需求[31]。在轻量化目标检测方面,将YOLOv7与ShuffleNetv2及Vision Transformer结合,显著降低了计算开销,适用于资源受限的医疗环境[32]。这些改进使DETR和TOLO系列的肺结节检测中性能得到显著提升。Gao等[33]将Transformer应用于乳腺癌超声图像检测,提升了小病灶检测精度。Chen等[34]提出TransUNet,结合Transformer与U-Net进行医学图像分割,显著提高了分割准确率。然而现有基于Transformer的模型在肺结节检测中仍存在小结节特征捕获不足、多尺度特征融合欠佳、计算效率待提升等问题。尤其在跨尺度特征融合与通道间特征交互方面,模型性能仍需进一步优化。

3.方法

在本章节中,我们首先介绍LNDETR的主体结构,随后深入探讨若干关键改进模块,包括提出的PC-EMA模块、通道变换器模块以及GS-CCFM模块。

3.1. LN-DETR模型架构

图1展示了LN-DETR模型的整体框架,该模型基于RT-DETR构建,由主干网络(Backbone)、混合编码器以及带有辅助预测头的变压器解码器组成。具体而言,我们使用主干网络最后三个阶段S3、S4、S5的输出特征作为混合编码器的输入。该混合编码器通过CTrans模块和GS-CCFM模块将多尺度特征转换为图像特征序列。基于交并比感知的查询选择机制(IoU-aware query selection)用于选取固定数量的图像特征作为解码器的初始目标查询。最终,配备辅助预测头的解码器通过迭代优化目标查询来生成边界框及置信度分数。

在这里插入图片描述

图1. LN-DETR模型的整体框架。

在Backbone的层级结构中,传统卷积模块被提出的PC-EMA模块所取代。每个PC-EMA模块通过PConv局部卷积减少冗余计算,利用EMA机制并行提取多尺度特征,并通过残差连接保留原始信息。S3-S5三个阶段的特征图依次经过PC-EMA模块处理,显著提升了模型对微小结节及复杂形状结节的表征能力。

混合编码器由两个核心模块组成:CTrans模块和GS-CCFM模块。其中CTrans模块通过CCT和CCA两个子模块消除多尺度特征间的语义差异,增强结节边界特征的对齐能力;GS-CCFM模块采用GSConv混合卷积,结合通道混洗操作技术促进跨尺度特征交互。这两个模块以级联方式工作:CTrans首先沿通道维度对S3-S5的特征进行重校准,随后GS-CCFM通过渐进式空间融合生成高分辨率特征金字塔。最终,解码器输出检测结果。

PC-EMA模块通过局部-全局特征协同机制,在骨干网络阶段对结节特征进行粗粒度筛选;CTrans模块通过CCT子模块中的跨通道令牌交互消除多尺度语义差异,再经由CCA子模块中的通道注意力增强结节特征一致性;GS-CCFM则通过轻量级混合卷积实现高效空间特征融合。这三个模块在特征提取、通道交互和空间融合维度上互为补充,共同提升了模型在肺结节检测中的精度与推理速度。

3.2. 提出的PC-EMA模块

RT-DETR模型采用混合编码器设计作为其骨干网络,通过多尺度特征图(S3-S5)与跨尺度融合模块实现端到端检测,在通用场景下具备高效精准的性能。但在复杂、高噪声及多目标尺度场景中,其局限性显著显现:跨尺度注意力机制难以有效对齐语义差异较大的特征层,导致小目标漏检;Transformer解码器的迭代计算复杂度高,连续下采样造成细粒度信息丢失。

为解决上述问题,本文提出PC-EMA模块,该模块通过轻量化设计提取局部特征、增强多尺度注意力并保留残差信息,从而优化肺结节检测的准确性与效率。如图2所示,PC-EMA模块由四个核心组件构成:部分卷积(PConv)[18]、PWConv(1×1卷积)、EMA模块[17]以及残差连接。

在这里插入图片描述

图2. (a) PConv模块结构;(b) PC-EMA模块结构。

首先,我们采用PConv技术高效提取局部特征。PConv仅对输入特征图的部分通道(通常为25%)执行卷积运算,同时保持其余通道不变。该方法减少了冗余计算与内存访问,在保持效率的同时显著降低计算开销。设输入特征图为 F i n ∈ R H × W × C i n F_{in} ∈ \mathbb{R}^{H×W ×C_{in}} FinRH×W×Cin ,其中H为高度,W为宽度, C i n C_{in} Cin为通道数。部分卷积操作可表述为:

F p c o n v = P C o n v ( F i n ; k , s ) \mathbf{F}_{pconv}=\mathrm{PConv}(\mathbf{F}_{in};k,s) Fpconv=PConv(Fin;k,s)

其中k为核尺寸,s为步长。

部分卷积的计算复杂度(以浮点运算次数FLOPs计)为:

F L O P s = H × W × C p 2 × k 2 \mathrm{FLOPs}=H\times W\times C_p^2\times k^2 FLOPs=H×W×Cp2×k2

其中Cp为缩减后的通道数(例如 C p = 25 % × C i n C_p = 25 \% × C_{in} Cp=25%×Cin),从而降低了计算负担。

接下来,我们采用1×1卷积(逐点卷积,PWConv)对所有通道进行特征压缩与通道融合。设部分卷积的输出为 F p c o n v ∈ R H × W × C p F_{pconv} ∈ \mathbb{R}^{H×W ×C_p} FpconvRH×W×Cp。PWConv操作通过1×1卷积对特征图进行全局特征整合:

F p w c o n v = P W C o n v ( F p c o n v ; 1 × 1 ) \mathbf{F}_{pwconv}=\mathrm{PWConv}(\mathbf{F}_{pconv};1\times1) Fpwconv=PWConv(Fpconv;1×1)

此步骤确保同时捕捉局部与全局信息,使肺结节的详细特征——如边界和内部纹理——得以充分整合。

随后,我们引入EMA模块以进一步增强特征表征能力。如图3所示,该模块通过并行的多尺度子网络(即1×1与3×3卷积)同时捕获局部与全局空间依赖性。设 F p w c o n v F_{pwconv} Fpwconv为PWConv的输出特征图,EMA模块通过双重卷积处理该特征图:采用1×1卷积获取全局特征,利用3×3卷积提取局部空间特征,其运算定义为:

在这里插入图片描述

图3. EMA模块结构。

F g l o b a l = C o n v l × l ( F p w c o n v ) \mathbf{F}_{global}=\mathrm{Conv}_{\mathrm{l\times l}}(\mathbf{F}_{pwconv}) Fglobal=Convl×l(Fpwconv)

F l o c a l = C o n v 3 × 3 ( F p w c o n v ) \mathbf{F}_{local}=\mathrm{Conv}_{3\times3}(\mathbf{F}_{pwconv}) Flocal=Conv3×3(Fpwconv)

这些多尺度卷积操作帮助模型捕捉肺结节在不同尺度下的短期和长期依赖关系。随后通过矩阵点积运算聚合多尺度特征图,从而增强像素级空间依赖建模:

F E M A = D o t P r o d ( F g l o b a l , F l o c a l ) \mathbf{F}_{EMA}=\mathrm{DotProd}(\mathbf{F}_{global},\mathbf{F}_{local}) FEMA=DotProd(Fglobal,Flocal)

EMA模块有效解决了肺结节大小和位置多变性的挑战,提升了检测的稳健性。

为确保信息在深度网络传输过程中不丢失,我们采用残差连接。最终特征图 F o u t F_{out} Fout的计算公式为:

F o u t = F E M A + F i n \mathbf{F}_{out}=\mathbf{F}_{EMA}+\mathbf{F}_{in} Fout=FEMA+Fin

这种残差连接保留了原始特征图信息,确保重要细节在整个网络中得到保留。

PC-EMA模块的引入克服了传统卷积和注意力机制在肺结节检测中的局限性,同时提升了实时性能与准确率。PConv有效降低了计算开销,EMA模块则增强了多尺度特征提取能力,尤其在小体积和形态复杂的肺结节检测中表现优异。通过精心设计的模块结构,我们确保模型在实时推理过程中始终保持高检测速度与精度。

3.3. 通道变换器模块的引入

肺结节检测是一项复杂任务,尤其对于微小或形态学复杂的结节而言。模型需能捕捉精细的局部特征,同时具备强大的全局特征建模能力。RT-DETR中传统的基于注意力的同尺度特征交互模块(AIFI)虽采用自注意力机制实现同尺度特征间交互,但在多尺度特征融合与跨通道特征捕获方面存在局限性。

为解决这一问题,我们在RT-DETR模型中引入了CTrans模块。该模块通过引入跨通道特征注意力机制,提升了模型在肺结节检测中的性能。CTrans模块的设计灵感源自UCTransNet[19],专注于跨通道特征融合与注意力机制,以更好地捕捉肺结节的全局与局部特征。如图4所示,CTrans模块由CCT和CCA两个子模块构成,这些子模块消除了特征融合过程中的语义差异,增强了捕获肺结节多尺度特征的能力。具体操作如下:

在这里插入图片描述

图4. CTrans模型架构。该模块由两部分组成:CCT与CCA。

(1) CCT模块通过跨通道交互实现了不同通道尺度特征的多尺度融合。在该模型中,CCT模块有效整合了肺结节的高层语义特征与低层空间细节特征,从而增强模型对不同尺寸和形态肺结节的检测适应性。其运算流程如下:

首先,将来自不同层级的特征嵌入并表示为多尺度标记序列。设 E i ∈ R H i × W i × C i E_i ∈ R^{H_i×W_i×C_i} EiRHi×Wi×Ci表示不同尺度的特征,其中 H i H_i Hi W i W_i Wi为特征图的高度与宽度, C i C_i Ci为通道数。经嵌入处理后,特征被转换为标记序列 T i ∈ R H i W i × C i T_i ∈ R^{H_iW_i×C_i} TiRHiWi×Ci。将多尺度标记拼接得到 T Σ = C o n c a t ( T 1 , T 2 , T 3 , T 4 ) T_Σ = Concat(T_1, T_2, T_3, T_4) TΣ=Concat(T1,T2,T3,T4)。随后,通过跨通道计算查询矩阵、键矩阵和值矩阵来获得交叉通道注意力:

Q i = T i W Q i , K = T Σ W K , V = T Σ W V Q_i=T_iW_{Q_i},\quad K=T_\Sigma W_K,\quad V=T_\Sigma W_V Qi=TiWQi,K=TΣWK,V=TΣWV
矩阵 W Q i W_{Q_i} WQi W K i W_{K_i} WKi W v i W_{v_i} Wvi分别表示查询、键和值的权重矩阵。随后注意力矩阵 M i M_i Mi的计算方式如下:

M i = σ ( Q i T K C Σ ) V M_i=\sigma\left(\frac{Q_i^TK}{\sqrt{C_\Sigma}}\right)V Mi=σ(CΣ QiTK)V
最终输出通过多层感知机(MLP)及残差结构处理:

O i = M C A i + M L P ( Q i + M C A i ) O_i=MCA_i+MLP\left(Q_i+MCA_i\right) Oi=MCAi+MLP(Qi+MCAi)

此处,MCA表示多头跨通道注意力的输出。

(2) CCA模块通过捕捉不同通道间的依赖关系增强特征融合。在肺结节检测中,该模块能更有效地对不同位置和通道的特征进行筛选与权重分配,使模型聚焦于结节的关键特征,从而提升检测精度。其运算流程如下:首先通过全局平均池化(GAP)沿空间维度压缩特征图,并计算注意力掩码 M i M_i Mi

G ( O i ) = 1 H × W ∑ h = 1 H ∑ w = 1 W O i ( h , w ) G\left(O_i\right)=\frac{1}{H\times W}\sum_{h=1}^H\sum_{w=1}^WO_i(h,w) G(Oi)=H×W1h=1Hw=1WOi(h,w)
M i = L 1 ⋅ G ( O i ) + L 2 ⋅ G ( D i ) M_i=L_1\cdot G\left(O_i\right)+L_2\cdot G\left(D_i\right) Mi=L1G(Oi)+L2G(Di)

此处 L 1 L_1 L1 L 2 L_2 L2为线性变换矩阵, O i O_i Oi代表来自CCT的输出特征, D i D_i Di表示解码器生成的特征。最终通过sigmoid函数生成通道注意力掩码并应用于特征 O i O_i Oi

O ^ i = σ ( M i ) ⋅ O i \hat{O}_i=\sigma\left(M_i\right)\cdot O_i O^i=σ(Mi)Oi

通过这些改进,该模型能够更有效地捕捉肺结节的多尺度与跨通道特征,从而提升检测的准确性与鲁棒性。

3.4. 提出的GS-CCFM模块

肺部结节检测的主要挑战在于高效捕捉复杂多变的结节形态,同时保持检测准确率。传统卷积神经网络由于计算负担大,难以在高精度与推理速度之间取得平衡。为解决这一问题,我们设计了GSCCFM模块。通过在跨尺度特征融合模块(CCFM)中引入GSConv,我们在降低计算成本的同时实现了更高效的跨尺度特征融合,从而提升了肺结节检测的效率和准确率。

具体而言,GSConv的设计将输入通道划分为两部分:一部分采用标准卷积处理以增强特征表征能力,另一部分则通过深度可分离卷积处理以降低计算复杂度。这种混合卷积策略使GSConv在显著减少FLOPs的同时,能同步捕获全局与局部特征,从而实现对肺结节特性的精准建模。其表达式如下:

标准卷积部分:对部分通道应用标准卷积运算以获得输出 Y S C Y_{SC} YSC

Y S C = W S C ∗ X + b S C Y_{SC}=W_{SC}*X+b_{SC} YSC=WSCX+bSC

此处X表示输入特征图, W S C W_{SC} WSC为标准卷积核, b S C b_{SC} bSC为偏置项,符号∗代表卷积运算。深度可分离卷积部分:对剩余通道采用深度可分离卷积运算得到输出 Y D S C Y_{DSC} YDSC

Y D S C = W D W ∗ X D W + W P W ∗ X P W + b D S C Y_{DSC}=W_{DW}*X_{DW}+W_{PW}*X_{PW}+b_{DSC} YDSC=WDWXDW+WPWXPW+bDSC
此处, W D W W_{DW} WDW为深度卷积核, W P W W_{PW} WPW为逐点卷积核,分别用于处理空间与通道信息。 b D S C b_{DSC} bDSC为偏置项。

通道混洗:在卷积运算后,GSConv通过通道混洗机制增强不同通道间的交互。该混洗操作通过对通道进行分组与重新分配来实现信息交换,确保来自标准卷积和深度卷积的特征能够均匀分布于各通道中:

Y = S h u f f l e ( Y S C , Y D S C ) Y=\mathrm{Shuffle}\left(Y_{SC},Y_{DSC}\right) Y=Shuffle(YSC,YDSC)

最终输出Y是融合了标准卷积和深度可分离卷积特征的特征图。如图1所示,GS-CCFM和GSFusion模块基于CCFM模块进行了优化。多个由GSConv构成的GSFusion块被插入融合路径,以实现高效特征融合。

GS-Fusion的作用是将相邻特征合并为新特征。GSFusion包含N个Rep模块,两条输出路径通过逐元素相加进行融合,表达式如下:

Q = K = V = F l a t t e n ( S 5 ) \mathbf{Q}=\mathbf{K}=\mathbf{V}=\mathrm{Flatten}\left(S_5\right) Q=K=V=Flatten(S5)
F 5 = R e s h a p e ( A t t n ( Q , K , V ) ) F_5=\mathrm{Reshape}(\mathrm{Attn}(\mathbf{Q},\mathbf{K},\mathbf{V})) F5=Reshape(Attn(Q,K,V))
O u t p u t = G S − C C F M ( { S 3 , S 4 , F 5 } ) \mathrm{Output}=\mathrm{GS-CCFM}\left(\{S_3,S_4,F_5\}\right) Output=GSCCFM({S3,S4,F5})

其中Attn表示多头自注意力机制,Reshape表示将特征形状恢复至与S5相同,即Flatten操作的逆运算。

4.实验

本章首先介绍了实验使用的两个数据集及其预处理方法,即LUNA16数据集和天池肺结节数据集。随后详细阐述了实验设置与评估指标,并在上述数据集上将所提方法与前沿检测器进行性能对比,包括mAP曲线和检测结果的比较。最后针对LN-DETR模型开展消融实验,验证各模块的有效性。

4.1 数据集与预处理

4.1.1 数据集

在本研究中,为评估模型的有效性,我们采用了两种广泛用于肺结节检测的公开数据集:天池肺结节数据集[35]和肺结节分析16(LUNA16)数据集[36]。

LUNA16数据集基于LIDC/IDRI(肺部图像数据库联盟与图像数据库资源计划)数据集构建,后者包含1000例胸部CT扫描。LUNA16从中筛选出888例胸部CT扫描,包含由专业放射科医师标注的1186个肺结节及36,378项注释记录,专用于肺结节的检测与分析研究。

天池肺结节数据集是由阿里云天池平台提供的医学影像数据集,主要用于肺结节检测与诊断研究。该数据集包含1000余例胸部CT扫描影像,由专业医疗机构采集。每例病例包含数百张DICOM格式的CT切片图像,由不同CT设备生成,具有各异的分辨率与切片厚度,通常介于1至3毫米之间。数据集包含良性与恶性结节标注,是用于自动化肺结节检测与分类的综合性数据集。

4.1.2. 数据集预处理

CT图像质量通常较差且包含无关信息,如噪声和伪影。因此在将数据输入网络前需进行预处理以提升图像质量。我们对两个数据集进行了系统性预处理,确保图像与标注信息适用于后续深度学习模型的训练与评估。

具体的预处理步骤如下:首先从数据集中提取原始CT扫描图像(.mhd文件)及对应的结节标注(CSV文件),并通过seriesuid字段将图像与标注精确匹配。随后对CT图像的像素值进行标准化处理,将亨氏单位(HU)值限定在[-1000, 400]范围内,并归一化至0到255的整数区间。为获取更多三维上下文信息,保留每个结节的中位切片及相邻两片切片。根据结节中心坐标与直径生成掩膜以进行标注图像中的结节区域。随后,采用K均值聚类与形态学操作(腐蚀与膨胀)提取肺实质以消除无关背景噪声。预处理完成后,将图像及掩模转换为JPEG格式并生成对应标注文件。最终,数据集按70%训练集、15%验证集和15%测试集进行划分,以确保模型训练、验证及测试过程的平衡性与科学严谨性。

4.2. 实验设置与评估指标

4.2.1. 实验设置

在模型训练期间,服务器运行环境为Ubuntu 20.04系统,使用Python 3.9.12及PyTorch 1.30框架。CPU采用英特尔至强银牌4216处理器,GPU配置为2块显存24GB的NVIDIA GeForce RTX 3090 Ti显卡。本实验网络模型参数设置如下:训练周期数为300轮。

为评估LN-DETR模型对不同超参数设置的敏感性,我们在LUNA16和天池肺结节两个数据集上进行了实验。通过调整学习率和权重衰减系数,分析其对模型性能(以平均精度均值mAP为衡量指标)的影响,结果详见表1与表2。

在这里插入图片描述
表1 LN-DETR在LUNA16数据集上采用不同超参数时的性能表现。

在这里插入图片描述

表2 LN-DETR在天池肺结节数据集上采用不同超参数时的性能表现。

表1展示了LN-DETR模型在LUNA16数据集上的性能表现。我们观察到,当学习率为1×10−4且权重衰减为1×10−4时,模型取得最佳性能,mAP达到81.4%。类似地,表2呈现了在天池肺结节数据集上的实验结果,当学习率为1×10−4且权重衰减为1×10−3时模型表现最优,mAP达到83.2%。因此,后续针对这两个数据集的全部实验均采用上述超参数设置。

4.2.2. 评估指标

在本文中,我们采用了医学影像与目标检测领域常用的多项评估指标,包括精确率(Precision)、召回率(Recall)、F1分数(F1-Score)、平均精度均值(mAP)以及模型参数量。精确率与召回率的计算公式如下:

R e c a l l   = T P T P + F N \mathrm{Recall~}=\frac{TP}{TP+FN} Recall =TP+FNTP

其中TP、TN、FP和FN分别代表真阳性、真阴性、假阳性和假阴性。

平均精度(AP)通过对精确率-召回率(PR)曲线进行插值计算得出。公式为:

P i n t e r p ( r ) = max ⁡ r ′ ≥ r P ( r ′ ) P_\mathrm{interp}(r)=\max_{r^{\prime}\geq r}P\left(r^{\prime}\right) Pinterp(r)=rrmaxP(r)
A P = ∫ 0 1 p ( r ) d r AP=\int_0^1p(r)dr AP=01p(r)dr

mAP是所有类别AP值的平均值:

m A P = ∑ i = 1 n A P i n mAP=\frac{\sum_{i=1}^nAP_i}{n} mAP=ni=1nAPi

F1分数是精确率(Precision)与召回率(Recall)的调和平均数,计算公式为:

F 1 s c o r e = 2 ×   P r e c i s i o n   ×   R e c a l l   P r e c i s i o n   +   R e c a l l   F1score=\frac{2\times\mathrm{~Precision~}\times\mathrm{~Recall~}}{\mathrm{Precision~}+\mathrm{~Recall~}} F1score=Precision + Recall 2× Precision × Recall 

模型参数的数量主要由卷积层和全连接层中的权重构成。计算公式为:

P a r a m e t e r   = ( C i n   × K 2 + 1 ) C o u t \mathrm{Parameter~}=\begin{pmatrix}C_{\mathrm{in~}}\times K^2+1\end{pmatrix}C_{\mathrm{out}} Parameter =(Cin ×K2+1)Cout

为验证LN-DETR模型的性能,我们与当前最先进的检测方法(包括经典检测算法和肺结节检测算法)进行了全面对比。对比主要聚焦于多维度指标:性能指标(F1分数和mAP)、模型复杂度(参数量)及计算成本(GFLOPs)。具体而言,我们在LUNA16数据集和天池肺结节数据集上复现了经典检测算法,并汇总了近期肺结节检测研究的实验结果。

4.3. 与最先进检测器的对比

4.3.1. LUNA16数据集

为全面评估LN-DETR模型的性能,我们将其与多种先进检测方法进行了对比,包括经典检测算法和专为肺结节检测设计的模型。对比指标涵盖性能(F1分数和mAP)、速度(GFLOPs)以及参数量(Params)。具体而言,我们不仅在LUNA16和天池肺结节数据集上复现了经典检测算法,还汇总了近期肺结节检测研究的相关实验结果。表3展示了LUNA16数据集上的对比结果。

表3 基于LUNA16数据集的模型性能对比。

在这里插入图片描述

在该数据集上,LN-DETR以91.5%的F1分数和93.1%的mAP实现了卓越性能,超越了包括最新肺结节检测算法CAF-YOLO、BiRPN-YOLO和YOLOv5-CASP在内的所有其他模型,以及DETR变体和最新版YOLO。相较于基线模型RT-DETR-R50,LN-DETR将F1分数提升4.2%,mAP提高5.3%,同时显著减少了参数量和计算复杂度。这些优势使得LN-DETR成为更高效、更精准的肺结节检测模型。

在与最新的肺结节检测算法对比中,LN-DETR同样表现优异,其性能超越CAF-YOLO、BiRPN-YOLO和YOLOv5-CASP等模型。例如,CAF-YOLO的F1分数为86.7%,平均精度(mAP)为90.7%,而BiRPN-YOLO与YOLOv5-CASP的性能指标更低。相比之下,LN-DETR的F1分数达到91.5%,mAP高达93.1%,显著优于这些专为肺结节检测优化的模型,充分证明其在该任务中具有更高的效能。

与YOLO系列模型相比,LN-DETR展现出更优越的性能表现。例如YOLOv5-S的F1分数为85.0%、mAP达86.7%,而YOLOv8-S的F1分数为81.3%、mAP为83.0%。尽管YOLOv9C和YOLOv10-L具有更高的模型复杂度,其F1分数与mAP指标仍低于LN-DETR。凭借91.5%的F1分数和93.1%的mAP值,LN-DETR不仅全面超越这些YOLO模型,更在模型复杂度与性能之间实现了更优平衡,成为同时要求高精度与高效率应用场景的更佳选择。

4.3.2. 天池肺结节数据集

表4展示了不同模型在天池肺结节数据集上的性能对比。与LUNA16数据集上的结果一致,LN-DETR展现出显著优势,其F1分数达87.4%,mAP为86.4%,均超越其他模型。

在这里插入图片描述
表4 基于天池肺结节数据集的模型性能对比。

与基准模型RT-DETR-R50相比,LN-DETR展现出显著的性能提升,F1分数提高5.0%,平均精度(mAP)提升5.5%。此外,LN-DETR在参数量和计算复杂度方面具有明显优势,使其成为更高效、更精准的肺结节检测模型。

与其他YOLO类模型相比,LN-DETR同样表现优异。例如,YOLOv9-E的F1分数达到82.1%,mAP值达到81.8%,但其模型复杂度和计算成本远高于LN-DETR。相比之下,LN-DETR取得了87.4%的F1分数和86.4%的mAP值,明显超越这些模型,展现出其在肺结节检测任务中的卓越效能。

这些结果验证了LN-DETR在保持高效架构的同时实现了卓越的检测精度与效率,凸显其作为肺结节检测实用解决方案的潜力,尤其在临床应用场景中。

4.3.3. MAP曲线

如图6所示,LN-DETR模型在LUNA16数据集上训练时收敛迅速,约50个epoch后mAP值接近0.9,显著优于其他模型。在整个训练过程中,LN-DETR始终保持较高mAP值,最终稳定在0.931。类似地,在天池肺结节数据集上,LN-DETR模型约50个epoch后mAP值接近0.83且快速收敛,明显优于其他对比模型。其训练全程保持较高mAP值,最终稳定在0.864,显著超越其他模型表现

在这里插入图片描述

图6. (a) 各模型在LUNA16数据集中的mAP变化曲线;(b) 各模型在天池肺结节数据集中的mAP变化曲线。

4.3.4. 计算效率与临床适用性分析

我们系统性地评估了LN-DETR模型在LUNA16数据集上的计算效率。表5展示了主流检测模型在实时性能与资源占用方面的对比分析。实验结果表明,LN-DETR单帧推理时间仅需42.3毫秒,实时推理速度达到23.7 FPS,不仅完全满足临床CT图像处理常规帧率要求(10–30 FPS),相较基准模型RT-DETR-R50更实现了39.4%的FPS提升。

在这里插入图片描述

表5 计算效率与模型规模的对比。

在轻量化设计方面,LN-DETR的模型大小为50.1MB,相较于基线模型缩减了39%,且显著优于主流大型模型YOLOv9-E(111.0 MB)与YOLOv5-L(101.1 MB)。这种紧凑性使得LN-DETR特别适合部署在存储和计算能力有限的医疗边缘设备上。

值得注意的是,尽管YOLOv5-S和YOLOv10-S模型体积较小,但其检测精度明显低于LN-DETR。这充分表明,通过创新的网络架构设计,LN-DETR在保持轻量化优势的同时,成功保留了关键检测性能,实现了模型效率与检测精度之间的最优平衡。

4.4. 检测结果

我们从两个数据集的验证集中随机选取部分图像以评估检测结果的可靠性。如图7和图8所示,无论结节位于肺部何处(即便是靠近壁层胸膜的结节),我们的方法均能有效识别,且标记位置与原发病灶吻合。此外,检测目标的置信度分数高于其他先进检测器,表明我们的模型对疑似病灶区域的判断更为可靠。

在这里插入图片描述
图7. LUNA16实验的检测结果。

在这里插入图片描述

图8. 天池肺结节数据集的检测结果。

4.5. LN-DETR消融实验

为验证所提LN-DETR模型中各模块对最终性能的影响,我们在LUNA16数据集上进行了消融实验,以评估不同模块的独立贡献与组合效果。表6展示了消融研究的详细结果。

在这里插入图片描述

表6 基于LUNA16数据集进行的消融研究结果。

基线模型的F1分数达到87.3%,mAP为88.1%,参数量42.0M,计算量136.0 GFLOPs。在独立引入GS-CCFM模块后,F1分数提升至88.0%,mAP上升至89.5%,同时减少了参数量和在计算效率方面分别降低了53.7%和58.1%的GFLOPs,这证明了GSCCFM模块在增强跨通道特征融合的同时显著提升了计算效率。对于CTrans模块,尽管参数量增至29.73M,模型仍保持了87.0%的F1分数,同时将mAP提升至89.9%,验证了其捕获复杂形状结节多尺度特征的能力。

PC-EMA模块展现出最显著的改进:F1分数飙升至90.3%,mAP提升至91.3%,同时参数量大幅减少59.0%,计算量(GFLOPs)降低60.9%。这凸显了PC-EMA在提升精度与优化资源效率方面的双重优势。

整合所有模块后,完整的LN-DETR模型仅使用2620万参数量和52.1 GFLOPs计算量,即以91.5%的F1分数和93.1%的mAP值实现了最先进的性能。这一协同效应凸显了所提出模块在精度、鲁棒性与效率平衡方面的互补作用。

5.结论

本研究提出的LN-DETR模型在肺结节检测任务中实现了显著的性能提升。通过在LUNA16和天池肺结节数据集上的实验,我们验证了LN-DETR在检测精度、计算效率和模型复杂度方面的优势。相较于基线模型及其他先进目标检测模型,LN-DETR在F1分数和mAP等关键指标上均展现出明显改进。

与传统基于CNN的模型不同,LN-DETR采用Transformer架构,具备更强的全局特征建模能力。尽管Transformer模型在计算机视觉领域已取得显著成功,但其在医学图像分析中的应用仍面临挑战,尤其在小目标与多尺度特征处理方面。LN-DETR通过针对性模块设计克服了这些难题,实现了肺结节检测性能的突破。相较于DETR、Deformable DETR等其他基于Transformer的模型,LN-DETR在检测精度与计算效率上均展现出明显优势,这主要归功于PC-EMA、CTrans和GSCCFM模块的协同作用——这些模块使模型能高效提取并融合多尺度特征,同时降低计算复杂度。

在LUNA16数据集上,LN-DETR取得了91.5%的优异F1分数和93.1%的mAP值,显著优于基准模型RT-DETR及其他YOLO系列模型。这表明LN-DETR能更有效地检测不同大小和形状的肺结节,尤其在小结节和复杂结节检测方面提升显著。同样在天池肺结节数据集上,LN-DETR表现突出,获得87.4%的F1分数和86.4%的mAP值,进一步验证了该模型的泛化能力和鲁棒性。

消融实验结果表明,PC-EMA、CTrans和GS-CCFM模块对提升模型性能均起到关键作用。PC-EMA模块在显著增强多尺度特征提取能力的同时降低了计算成本;CTrans模块通过改进跨尺度特征融合,在处理微小及形态复杂结节时表现突出;GS-CCFM模块则通过高效的跨通道特征融合进一步提升了检测性能。

为支持早期肺癌筛查,本研究提出的LN-DETR模型在肺结节检测任务中实现了显著性能提升。通过引入PC-EMA、CTrans和GS-CCFM模块,该模型有效增强了多尺度特征提取、跨通道特征融合及跨尺度信息交互能力,使得针对复杂形态和小目标的检测精度显著提高。在LUNA16和天池数据集上的实验结果表明,LN-DETR模型在检测精度、计算效率和模型复杂度方面均优于现有目标检测模型,尤其在F1分数和mAP等关键性能指标上取得实质性提升。该模型不仅从理论上对RT-DETR进行了优化改进,更在实际应用中展现出高效精准的肺结节检测能力。未来工作可聚焦于更大规模医学影像数据集的模型验证,并探索LN-DETR在其他医学影像分析任务中的潜力,旨在为临床诊断提供更强大的技术支撑。

6.引用文献

  • [1] H. Sung, J. Ferlay, R.L. Siegel, M. Laversanne, I. Soerjomataram, A. Jemal, F. Bray, Global cancer statistics 2020: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries, CA: Cancer J. Clin. 71 (3) (2021) 209–249, http://dx.doi.org/10.3322/caac.21660.
  • [2] C.I. Henschke, Early lung cancer action project: Overall design and findings from baseline screening, Cancer 89 (11 Suppl) (2001) 2474–2482.
  • [3] D.M. Hansell, A.A. Bankier, H. MacMahon, T.C. McLoud, N.L. Müller, J. Remy, Fleischner society: Glossary of terms for thoracic imaging, Radiology 246 (3) (2008) 697–722.
  • [4] W. Cao, R. Wu, G. Cao, Z. He, A comprehensive review of computer-aided diagnosis of pulmonary nodules based on computed tomography scans, IEEE Access 8 (2020) 154007–154023.
  • [5] H. Jin, C. Yu, Z. Gong, et al., Machine learning techniques for pulmonary nodule computer aided diagnosis using CT images: A systematic review, Biomed. Signal Process. Control. 79 (2023) 104104.
  • [6] R. Li, C. Xiao, Y. Huang, et al., Deep learning applications in computed tomography images for pulmonary nodule detection and diagnosis: A review, Diagnostics 12 (2) (2022) 298.
  • [7] J. Xiao, Y. Zheng, Global lung cancer prevalence and prevention progress, Chin. J. Cancer 30 (10) (2020) 721–725.
  • [8] R. Yuan, P.M. Vos, P.L. Cooperberg, Computer-aided detection in screening CT for pulmonary nodules, Am. J. Roentgenol. 186 (5) (2006) 1280–1287.
  • [9] G. Litjens, T. Kooi, B.E. Bejnordi, et al., A survey on deep learning in medical image analysis, Med. Image Anal. 42 (2017) 60–88.
  • [10] D. Shen, G. Wu, H.I. Suk, Deep learning in medical image analysis, Annu. Rev. Biomed. Eng. 19 (2017) 221–248.
  • [11] A.A.A. Setio, F. Ciompi, G. Litjens, et al., Pulmonary nodule detection in CT images: False positive reduction using multi-view convolutional networks, IEEE Trans. Med. Imaging 35 (5) (2016) 1160–1169.
  • [12] Q. Dou, H. Chen, Y. Jin, et al., Automated pulmonary nodule detection via 3D convnets with online sample filtering and hybrid-loss residual learning, Med. Image Anal. 36 (2017) 103–113.
  • [13] N. Carion, F. Massa, G. Synnaeve, et al., End-to-end object detection with transformers, in: European Conference on Computer Vision, ECCV, 2020, pp. 213–229.
  • [14] A. Dosovitskiy, L. Beyer, A. Kolesnikov, et al., An image is worth 16×16 words: Transformers for image recognition at scale, in: International Conference on Learning Representations, ICLR, 2021.
  • [15] A. Vaswani, N. Shazeer, N. Parmar, et al., Attention is all you need, in: Advances in Neural Information Processing Systems, Vol. 30, 2017, pp. 5998–6008.
  • [16] W. Lv, Y. Zhao, S. Xu, J. Wei, G. Wang, C. Cui, Y. Du, Q. Dang, Y. Liu, RTDETR: Real-time detection transformer for end-to-end object detection, 2023, ArXiv Preprint arXiv:2304.08069v2.
  • [17] D. Ouyang, S. He, J. Zhan, H. Guo, Z. Huang, M. Luo, G. Zhang, Efficient Multi-Scale Attention Module with Cross-Spatial Learning, Aerospace Science & Industry Shenzhen (Group) Co., Ltd., 2023.
  • [18] J. Chen, S.-h. Kao, H. He, W. Zhuo, S. Wen, C.-H. Lee, S.-H.G. Chan, Run, don’t walk: Chasing higher FLOPS for faster neural networks, 2023, ArXiv Preprint arXiv:2303.03667v3.
  • [19] H. Wang, P. Cao, J. Wang, O.R. Zaiane, UCTransNet: Rethinking the skip connections in U-Net from a channel-wise perspective with transformer, 2021, arXiv preprint arXiv:2109.04335.
  • [20] H. Li, J. Li, H. Wei, Z. Liu, Z. Zhan, Q. Ren, Slim-neck by gsconv: A lightweight design for real-time detector architectures, 2023, arXiv preprint arXiv:2206. 02424.
  • [21] D.Y. Kim, J.H. Kim, S.M. Noh, et al., Pulmonary nodule detection using chest CT images, Acta Radiol. 44 (3) (2003) 252–257.
  • [22] T. Messay, R.C. Hardie, S.K. Rogers, A new computationally efficient CAD system for pulmonary nodule detection in CT imagery, Med. Image Anal. 14 (3) (2010) 390–406.
  • [23] S.K. Mun, J.S. Lin, Automatic lung nodule detection using profile matching and back propagation neural network techniques, J. Digit. Imaging 6 (1) (1993) 48–54.
  • [24] J.P. Ko, M. Betke, Chest CT: Automated nodule detection and assessment of change over time—preliminary experience, Radiology 218 (1) (2001) 267–273.
  • [25] H. Madero Orozco, O.O. Vergara Villegas, V.G. Cruz Sánchez, et al., Automated system for lung nodules classification based on wavelet feature descriptor and support vector machine, Biomed. Eng. Online 14 (1) (2015) 1–20.
  • [26] K.P. Aarthy, U.S. Ragupathy, Detection of lung nodule using multiscale wavelets and support vector machine, Int. J. Soft Comput. Eng. 2 (3) (2012) 32–36.
  • [27] Z. Chen, S. Lu, CAF-YOLO: A robust framework for multi-scale lesion detection in biomedical imagery, 2024, ArXiv Preprint arXiv:2408.01897v1.
  • [28] Z. Ji, Y. Wu, X. Zeng, Y. An, L. Zhao, Z. Wang, I. Ganchev, Lung nodule detection in medical images based on improved YOLOv5s, IEEE Access 11 (2023) 1.
  • [29] K. Liu, STBi-YOLO: A real-time object detection method for lung nodule recognition, IEEE Access 10 (2022) 75385–75394.
  • [30] L. Han, F. Li, H. Yu, et al., BiRPN-YOLOvX: A weighted bidirectional recursive feature pyramid algorithm for lung nodule detection, J. X-Ray Sci. Technol. 31 (2) (2023) 1–17.
  • [31] X. Zhu, W. Su, L. Lu, B. Li, X. Wang, J. Dai, Deformable DETR: Deformable transformers for end-to-end object detection, 2020, arXiv preprint arXiv:2010. 04159.
  • [32] W. Gong, Lightweight object detection: A study based on YOLOv7 integrated with ShuffleNetv2 and vision transformer, 2024, ArXiv Preprint arXiv:2403.01736v1.
  • [33] Y. Gao, M. Zhou, D.N. Metaxas, Utnet: A hybrid transformer architecture for medical image segmentation, in: Medical Image Computing and ComputerAssisted Intervention – MICCAI 2021, in: Lecture Notes in Computer Science, vol. 12903, Springer, 2021, pp. 61–71.
  • [34] J. Chen, Y. Lu, Q. Yu, et al., TransUNet: Transformers make strong encoders for medical image segmentation, 2021, arXiv preprint arXiv:2102.04306.
  • [35] A. Cloud, Tianchi medical AI competition [season 1]: Intelligent diagnosis of pulmonary nodules, 2017, URL https://tianchi.aliyun.com/competition/entrance/ 231601/information.
  • [36] A.A.A. Setio, et al., Validation, comparison, and combination of algorithms for automatic detection of pulmonary nodules in computed tomography images: The LUNA16 challenge, Med. Image Anal. 42 (2017) 1–13.
  • [37] G. Jocher, A. Chaurasia, A. Stoken, J. Borovec, Y. Kwon, K. Michael, J. Fang, et al., Ultralytics/yolov5: V6.2 - YOLOv5 classification models, apple M1, reproducibility, clearml and deci.ai integrations, 2022, http://dx.doi.org/ 10.5281/zenodo.7002879.
  • [38] G. Jocher, A. Chaurasia, J. Qiu, Ultralytics YOLO, 2023, https://github.com/ ultralytics/ultralytics.
  • [39] C.-Y. Wang, I.-H. Yeh, H.-Y.M. Liao, YOLOv9: Learning what you want to learn using programmable gradient information, 2024, ArXiv Preprint arXiv: 2402.13616v2.
  • [40] A. Wang, H. Chen, L. Liu, K. Chen, Z. Lin, J. Han, G. Ding, YOLOv10: Real-time end-to-end object detection, 2024, ArXiv Preprint arXiv:2405.14458v1.