通过 HTML 子图和多尺度卷积 BERT 的双向融合实现可解释的恶意 URL 检测-易微帮

大家读完觉得有帮助记得关注和点赞！！！

抽象

URL+HTML 功能融合有望实现强大的恶意 URL 检测，因为攻击者工件存在于 DOM 结构中。然而，以前的工作存在四个关键的缺点：（1） URL 建模不完整，未能共同捕获词汇模式和语义上下文;（2） HTML 图形稀疏性，其中威胁指示节点（例如，混淆脚本）被隔离在良性内容中，导致图形聚合过程中的信号稀释;（3）单向分析，忽略 URL-HTML 特征双向交互;（4）不透明的决策，缺乏对恶意 DOM 组件的归因。

为了应对这些挑战，我们提出了 WebGuard++，这是一个具有 4 个新组件的检测框架：1）跨尺度 URL 编码器：基于具有动态卷积的 Transformer 网络，分层学习从本地到全局和从粗到细的 URL 特征。2）子图感知 HTML 编码器：将 DOM 图分解为可解释的子结构，通过分层特征融合放大稀疏威胁信号。3）双向耦合模块：通过跨模态对比学习来对齐 URL 和 HTML 嵌入，优化模态间一致性和模态内特异性。4）投票模块：通过对恶意子图预测的共识投票来定位恶意区域。实验表明，WebGuard++ 与最先进的基线相比取得了显著改进，在两个数据集中，在 0.001 和 0.0001 的固定 FPR 下，TPR 提高了 1.1×–7.9×。

索引术语：

恶意 URL 检测、多尺度学习、ConvBERT、金字塔注意力

第一介绍

网络钓鱼攻击已成为近年来最普遍和最具破坏性的网络威胁之一，反网络钓鱼工作组（APWG）报告称，2023 年第一季度的攻击数量达到创纪录的 1,624,144 次[1]2024 年第一季度约为 100 万[2].现代网络钓鱼活动采用越来越复杂的规避技术，包括同形文字域欺骗（例如“facbook.com”）、URL 缩短服务以及嵌入合法平台中的恶意内容。这些欺骗性做法使攻击者能够绕过传统的 URL 检测方法，例如黑名单[3,4]规则[5]和手动特征工程[6]，同时有效地模仿受信任的网站来窃取敏感信息。这些威胁的日益复杂和规模凸显了对强大、准确和高效的网络钓鱼检测系统的迫切需求，该系统能够在 Web 规模上运行，误报率接近零，以充分保护用户和基础设施。

大多数恶意 URL 检测方法主要依赖于基于 URL 的功能[7].但是，URL 存在几个关键限制：1）有限的信息维度 – URL 编码最少的上下文数据，将检测模型限制为表面级模式。2）规避漏洞 – 攻击者通过混淆、模仿或快速替换来绕过检测，轻松纵 URL。3）缺乏结构洞察力 – 仅靠 URL 无法揭示表明恶意意图的基础页面行为。

集成 HTML 结构分析有可能解决这些缺点。与 URL 不同，HTML 包含：1）丰富的层次结构 – DOM 树、嵌套的 iframe 和脚本依赖项暴露了隐藏的攻击媒介（例如，通过 iframe 加载的网络钓鱼内容）。2）交互逻辑 – 表单作、重定向和域不匹配揭示了数据泄露尝试（例如，欺骗性的提交端点）。通过训练模型来识别这些结构异常，HTML+URL 检测补充和加强了基于 URL 的功能，并减轻了规避策略，因为结构作比 URL 更改更难伪装。

Web2Vec 和 PhishDet 等现有方法展示了进步。Web2Vec 提出了一种深度混合网络架构，可以联合处理 URL 字符串、HTML 内容和 DOM 结构。PhishDet 将长短期记忆（LSTM）网络与图形卷积网络（GCN）相结合，以对 URL 模式和结构化 HTML 特征进行建模。但是，这些方法存在 4 个关键限制：

•

不完整的 URL 建模：现有方法将 URL 作为词法序列或静态标记处理，无法捕获（i）本地字符级作（例如，“facwook.com”）和（ii）全局语义上下文（例如欺骗性子域）。
•

HTML 图稀疏性：当前基于 GNN 的 DOM 分析器在邻域聚合过程中受到信号稀释的影响，因为威胁指示节点（例如，混淆的 <script> 标签）占典型 DOM 图的 <5%，而良性内容在注意力权重中占主导地位。
•

缺陷跨模态交互：现有方法尚未对模态之间的动态、双向语义关系进行建模，缺少相互强化的信号。例如，可疑 URL（例如，“login.paypa1.com”）可能与支付表单等 HTML 结构保持一致，而异常的 DOM 元素（例如，与品牌相关的虚假通知）可以阐明 URL 意图。
•

不透明的决策：黑盒架构缺乏归因机制来查明恶意 DOM 组件，阻碍了取证分析。

我们建议 WebGuard++ 通过四种环环相扣的技术来克服跨模态网络钓鱼检测挑战：（1）跨尺度 URL 编码器：将 ConvBERT 的分层表示与空间金字塔融合相结合，共同捕获字符级混淆模式（例如，“paypa1”）和语义不一致（例如，欺骗性子域）。（2）子图感知 HTML 编码器：通过稳定的节点分组和迭代批量采样执行 DOM 子图分区，实现本地化的恶意信号聚合（例如，形成集群），同时减轻全图处理中的良性节点干扰。（3）双向耦合模块：采用具有自注意力和交叉注意力的堆叠特征层来捕获不同的语义子空间，实现双向 URL-HTML 特征交互。（4）投票模块：采用最小妥协的投票策略 - 任何恶意子图（≥1in sampled rounds）触发全局恶意分类，同时通过恶意子图提供可作的取证证据。

这项工作做出了以下主要贡献：

•

我们提出了一种跨模态恶意 URL 检测，通过联合建模 URL 和 HTML 特征，在 <0.01 FPR 下实现 1.1-7.9× 的 TPR。
•

我们设计了一种 URL 编码方法，通过具有金字塔特征融合的多层 ConvBERT 来捕获词法混淆模式和语义不一致。
•

我们提出了一种 HTML 子图学习方法，该方法采用有效的子图分区来聚合本地恶意信号，同时防止特征稀释。
•

我们使用具有自我/交叉注意力的混合注意力网络来学习 URL 和 HTML 内容之间的双向、多视图关系。
•

我们的方法是第一个基于子图的恶意预测，它同时提供细粒度分类和组件级可追溯性。

图 1：WebGuard++ 的模型结构框架图。

第二相关工作

早期的网络钓鱼检测方法主要依赖于从原始 URL 中提取歧视性特征。网络钓鱼[8]表明，仅使用静态 URL 功能（例如域长度和字符组成）就可以有效地识别网络钓鱼链接，从而减少对外部资源的依赖。尽管如此，它对语义自然和结构复杂的恶意 URL 的有效性有限。网络钓鱼动物园[9]通过分析网页之间的视觉相似性增强了检测欺骗页面的能力，但在动态内容或轻微布局更改下，其稳定性会下降。因此，Sahingoz 等人[10]使用各种分类器对 URL 字符特征进行建模，显著提高检测准确性和泛化能力。 Shraddha Parekh 等人。[11]通过使用 Random Forest 算法的 URL 检测方法提出了一个模型。但是，仍然存在一些缺陷，例如缺少对 URL 文本的细粒度特征获取。

尽管取得了这些进步，但单模态检测方法[12]仍然容易受到利用其有限感知范围的适应性攻击。随着深度学习的出现，出现了更具表现力的模型。网址网[13]通过卷积神经网络（CNN）结合字符级和单词级嵌入来捕获 URL 中的形态模式，与手工制作的特征相比，它有显著的改进。这一研究方向通过基于 CNN 的架构进行了扩展[14]和基于注意力的转换器，例如 TransURL[15]，它对对抗性混淆表现出更强的鲁棒性。同时，PhishGuard 等模型[16]和 Fed-urlBERT[17]集成 Federated Training 和 Transformer 编码器，以支持隐私保护和可扩展学习。网络钓鱼 BERT[18]进一步探索了用于 URL 表示学习的预训练语言模型，从而产生了增强的泛化。

为了应对不断发展的网络钓鱼技术，研究人员逐渐转向多模态融合和结构感知建模[19,20,21,22,23,24,25,26,27].Yoon 等人。[28]提出了一个基于图卷积和 transformer 网络集成 HTML、DOM 图和 URL 特征的检测框架。Lee 等人。[29]引入了品牌一致性验证机制，在对抗性攻击下有效提高了绩效，尽管在识别新兴的利基品牌方面仍然存在挑战。网络钓鱼代理[30]通过利用多模态大型语言模型来集成网页文本、视觉和结构信息，进一步提高了检测稳健性。Lihui Meng et al.[31]提出了 DPMLF（Deep Learning Phishing Detection Model with Multi-Level Features），它集成了 URL 字符级和 HTML 单词级语义特征。然而，使用全连接层的特征融合不能紧密匹配模态，从而影响模型性能。

同时，PhishIntention[21]和 Phishpedia[20]强调视觉理解。Bushra Sabir 等人的更广泛评估。[32]揭示了许多最先进的模型在面对对抗性 URL 样本时表现出严重的性能下降，凸显了当前系统的脆弱性。

我们的方法通过四个关键维度将自身与之前的工作区分开来，从根本上推进恶意 URL 检测：（1）细粒度 URL 特征提取，（2）子图级 HTML 结构学习，（3）双向模态耦合，以及（4）恶意分段定位。

第三方法论

我们按如下方式组织本节：首先介绍数据预处理，然后详细介绍三个核心组件（URL 编码器、HTML 编码器及其双向耦合），最后介绍网络钓鱼检测机制。有关概述，请参见图 1。

III-A 系列跨刻度 URL 编码器

URL 是恶意网页检测的基本指标，因为攻击者经常纵 URL 结构来模仿良性页面，同时逃避传统的模式匹配技术并保留恶意意图。但是，提取歧视性 URL 特征需要仔细考虑两个关键挑战：（1）结构歧义;（2）对抗性噪声 — 嵌入的同形文字或 Base64 编码的有效载荷。这需要细粒度的 URL 特征提取，能够在字符级和语义级捕获多尺度信息。

为了解决这个问题，我们集成了 CharBERT 和 ConvBERT 模型，其中前者提取字符级 URL 特征，而后者配备了全局和局部上下文学习，优化了局部和全局语义表示。此外，为了实现从粗到精的表示学习，我们从 ConvBERT 模型的所有 12 个隐藏层中提取嵌入以构建特征矩阵，然后通过空间金字塔多尺度特征融合模块对其进行处理，以进行分层特征学习。

空间金字塔模块首先应用 DSConv3×3（深度可分卷积）对输入特征进行初步转换，如下所示：

其中，input 是 x，output 是 X。接下来，定义多个具有不同扩展率的 DSConv3x3 卷积核分支，其中不同的扩展率可以捕获不同尺度的上下文信息。较小的扩展速率可以专注于局部特征，而较大的扩展速率可以捕获更多的全局特征。每个分支都使用深度可分离卷积 DSConv3x3 和 expansionsd1,d2,d3,d4.

哪里D我表示我t⁢hbranch 和d我是分支的扩展速率。

将所有分支的输出与初始卷积的输出相加，以实现特征融合。

接下来，沿着空间金字塔注意力网络的思路[33]，使用不同大小的自适应平均池化层（AdaptiveAvgPool2d）对特征图执行池化作，以提取不同空间尺度的特征。

其中 AdaptiveAvgPool2d（k）表示特征映射的自适应池化为k×k.

最后，将这些特征向量拼接并输入到全连接层进行特征融合，并使用 sigmoid 函数获得注意力权重。

哪里F⁢C1和F⁢C2分别表示全连接层。

将注意力权重乘以融合的特征图，得到注意力加权特征图。将注意力加权特征图与原始输入特征图相加，实现残差连接，保留原始输入的信息。

算法 1 有偏见的投票机制过程。

1:  s⁢u⁢b⁢g⁢r⁢一个⁢p⁢h⁢s←s⁢u⁢m⁢(d⁢我⁢v⁢我⁢s⁢我⁢o⁢n⁢_⁢f⁢u⁢n⁢c⁢(g⁢r⁢一个⁢p⁢h))

2:0计数←0

3:1计数←0

4:0 分←1

5:1 分←0

6:   为 0自我⁢t⁢e⁢r⁢s⁢_⁢p⁢e⁢r−1 做

7:selected_subgraphs←r⁢一个⁢n⁢d⁢o⁢m.s⁢一个⁢m⁢p⁢l⁢e⁢(s⁢u⁢b⁢g⁢r⁢一个⁢p⁢h⁢s,4)

8:输出←model(selected_subgr一个phs,∗url)

9:分数←softmax⁢(o⁢u⁢t⁢p⁢u⁢t⁢s)

10:_、 predicted_classes←麦克斯⁢(o⁢u⁢t⁢p⁢u⁢t⁢s,1)

11:      如果 pred我cted==0 然后

12:        0⁢c⁢o⁢u⁢n⁢t←0⁢c⁢o⁢u⁢n⁢t+1

13:        0⁢s⁢c⁢o⁢r⁢e⁢s←分钟⁡(0⁢s⁢c⁢o⁢r⁢e⁢s,s⁢c⁢o⁢r⁢e⁢s)

14:      还

15:        1⁢c⁢o⁢u⁢n⁢t←1⁢c⁢o⁢u⁢n⁢t+1

16:        1⁢s⁢c⁢o⁢r⁢e⁢s←麦克斯⁡(1⁢s⁢c⁢o⁢r⁢e⁢s,s⁢c⁢o⁢r⁢e⁢s)

17:      end if

18:   end 为

19:  y⁢_⁢p⁢r⁢e⁢d←[]

20:  y⁢_⁢s⁢c⁢o⁢r⁢e⁢s←[]

21:   如果 1⁢c⁢o⁢u⁢n⁢t≥2 然后

22:     1搭y⁢_⁢p⁢r⁢e⁢d

23:     1⁢s⁢c⁢o⁢r⁢e⁢s搭y⁢_⁢s⁢c⁢o⁢r⁢e⁢s

24:   还

25:     0搭y⁢_⁢p⁢r⁢e⁢d

26:     0⁢s⁢c⁢o⁢r⁢e⁢s搭y⁢_⁢s⁢c⁢o⁢r⁢e⁢s

27:   end ifreturn 中： y⁢_⁢p⁢r⁢e⁢d,y⁢_⁢s⁢c⁢o⁢r⁢e⁢s

III-B 型子图感知 HTML 编码器

使用 Beautiful Soup 库（v4.12.3）解析输入 HTML 文档，以构建文档对象模型（DOM）树表示。此树保留了 HTML 元素的层次结构，包括所有标签、属性和文本内容。使用深度优先搜索（DFS）算法遍历 DOM 树以生成：NetworkX 包（v3.1）的图表对象，其中：节点表示具有唯一标识符的 HTML 元素（标签）。边缘对元素之间的父子关系进行编码。包含每个节点的结构化元数据的节点属性列表：标签类型（例如，<div>、<a>）、HTML 属性的键值对（例如，{“class”： “container”}）、原始文本内容。节点特征由节点 “tag”、“attributes”、“text” 属性、文本内容组成。对于每个节点，我们使用预先训练的 Word2Vec 模型（最小词汇量）来生成 100 维嵌入。

然后，根据 networkx 的边和节点数据计算相应的边矩阵、节点邻居列表和最大邻居数。DiGraph（）图形对象，并且所有数据都集成到模型可接受的 S2VGraph 对象结构中。

对于 HTML 内容，我们的目标是学习其结构中嵌入的恶意信号的有效表示。但是，由于此类信号通常隐藏在普通的 HTML 元素中，因此在基于图形的学习过程中它们往往会被掩盖。为了应对这一挑战，我们提出了子图感知 HTML 图学习，它将 HTML DOM 转换为图结构，并采用节点级子图分区来提取本地化的子图。这种方法支持子图级特征学习，确保恶意信号保持可区分，并且不会被良性结构模式稀释。

具体来说，我们使用哈希函数将图划分为 N 个子图H.该函数采用节点 ID 字符串（Sv）作为输入，并将节点分配给不同的子集，其中每个子图仅保留属于特定组的节点和边。

其中 G=（V，E，X），G 表示输入图，V 表示节点并集，E 表示边并集，X 表示节点特征矩阵，并且Xv表示节点 v 的特征向量。

接下来，我们将选择批量子图多次输入到模型中，以进行邻域聚合、MLP 非线性变换和 BatchNorm 运算。

其中 B 表示批量大小，G1表示1s⁢tsubgraph 中，l 表示lt⁢h增殖H(l)表示每个层的隐藏表示，一个b⁢l⁢o⁢c⁢k表示块对角稀疏矩阵。

最后，在子图级别对每一层的所有子图进行池化，并将每一层的特征连接起来，得到这些子图的最终特征。

其中 P 表示池化作。

图 2：有偏见的投票机制过程。

III-C 系列双向耦合模块

为了学习联合 URL-HTML 表示，我们提出了双向多视图耦合（[34]）融合多模式 URL 和 HTML 功能。与简单的串联或单向交叉注意力层不同，我们的双向耦合模块堆叠了多个混合注意力层。每一层都结合了自我注意和交叉注意力机制：自我注意独立建模每个模态内的模态内依赖关系，而交叉注意力捕获 URL 和 HTML 特征之间的模态间交互。

HTML 模态特征通过自我注意进行处理，以捕获模态内关系：

同样，URL 功能也会进行自我注意：

我们为多式联运信息交换建立了双向的跨模态注意力：

HTML 到 URL 注意从 URL 特征中提取域语义：

URL 到 HTML 的注意力从 HTML 功能中捕获结构模式：

随后输出融合的特征。

表 I：MTLP 数据集 10000 大规模评估指标：WebGuard++ 与其他模型。

方法	TN （田纳西州）	FP 系列	FN 系列	卫生纸	ACC	精度	召回	F1 系列	PR-AUC	ROC-AUC	MCC 公司	加权 F1
BiLSTM 的	940	54	922	84	0.5120	0.6086	0.0834	0.1468	0.5118	0.5145	0.0575	/
文CNN	814	180	104	902	0.8580	0.8336	0.8966	0.8639	0.9472	0.9434	0.7179	0.8577
网址网	829	165	148	857	0.9269	0.8385	0.8527	0.8455	0.7891	0.8433	0.6869	0.8434
转 URL	953	41	20	986	0.9695	0.9600	0.9801	0.9699	0.9934	0.9937	0.9391	0.9694
PMANet	991	26	22	961	0.9760	0.9736	0.9776	0.9756	0.9933	0.9952	0.9519	0.9760
网址伯特	910	42	11	1037	0.9735	0.9610	0.9895	0.9750	0.9965	0.9967	0.9472	0.9734
dephides	966	36	76	922	0.9440	0.9624	0.9238	0.9427	0.9824	0.9827	0.8887	0.9439
半 GAN	790	151	17	948	0.9118	0.8626	0.9823	09186	/	0.9826	0.8316	0.9113
WebGuard++	989	21	24	966	0.9775	0.9787	0.9757	0.9772	0.9959	0.9949	0.9549	0.9772

表 II：Abdelhakim 数据集网络钓鱼数据集评估指标：WebGuard++ 与其他模型。

方法	TN （田纳西州）	FP 系列	FN 系列	卫生纸	ACC	精度	召回	F1 系列	PR-AUC	ROC-AUC	MCC 公司	加权 F1
BiLSTM 的	115	2	58	13	0.6808	0.8666	0.1830	0.3023	0.4671	0.5830	0.2970	/
文CNN	103	14	42	29	0.7021	0.6744	0.4084	0.5087	0.6462	0.7647	0.3333	0.6814
网址网	90	26	40	31	0.8128	0.5438	0.4366	0.4843	0.4513	0.6062	0.2240	0.6378
转 URL	101	16	20	51	0.8085	0.7611	0.7183	0.7391	0.8210	0.8737	0.5886	0.8073
PMANet	98	14	14	62	0.8510	0.8157	0.8157	0.8157	0.8827	0.8956	0.6907	0.8510
网址伯特	88	18	16	66	0.8191	0.7857	0.8048	0.7951	0.8772	0.9004	0.6334	0.8193
dephides	104	1	67	16	0.6382	0.9411	0.1927	0.3200	0.7898	0.7840	0.3172	0.5621
半 GAN	88	24	34	35	0.6795	0.5932	0.5072	0.5468	0.4759	0.7017	0.3035	0.6738
WebGuard++	109	8	12	59	0.8936	0.8805	0.8309	0.8550	0.9072	0.9256	0.7719	0.8550

III-D 型网络钓鱼偏见投票机制

我们提出了一种用于网络钓鱼网站检测的有偏见的投票机制。如果多轮批量子图提取的恶意预测次数超过 1 次，我们会直接将对应的 HTML-URL 对归类为钓鱼网站。与传统方法不同，我们的机制在子图级别运行，不仅可以实现最终检测，还可以对 HTML 结构中的恶意区域进行定位。投票过程如图 2 所示，算法工作流程详见算法 1。

具体来说，对于每个划分为 num_groups 个子图的 HTML 图，我们将执行iter_per轮，从子图中随机提取与当前 HTML 图对应的iter_num子图和 URL 数据，并将它们输入到 WebGuard++ 模型中进行特征提取。WebGuard++ 的 Subgraph 感知 HTML 编码器将批量处理 Subgraph 特征，而不会相互影响。随后，WebGuard++ 融合来自 Subgraph 感知 HTML 编码器的输出子图特征，以表示本轮提取中子图集合的总特征。

假设当前是一个钓鱼网站，num_group=5，iter_per=5，iter_num=4，一个子图包含恶意。然后，在 5 张图片中随机选取 4 张图片，4 张图片包含恶意子图的概率为 80%;在 5 轮随机选择中，提取站点的子图集每组都不包含恶意子图的概率为 0.032%，接近于零。

因此，我们的方法基本上可以提取出全覆盖的子图，并输入到模型中进行预测。

为了确保预测的准确性，我们将确定 URL-HTML 数据对为恶意的条件设置为在所有提取轮次中作为恶意的预测数量大于 1 时。当预测一批子图特征是恶意的时，当前 URL-HTML 数据对将被标记为恶意。如果后续的一批子图特征也被预测为恶意，则确认之前的预测为真，说明 HTML 图确实包含内容恶意的子图，当前的 URL-HTML 数据对是恶意的。

表 III：MTLP 数据集 10000 的TPR@FPR指标：WebGuard++ 与其他模型。

表 IV：Abdelhakim 数据集网络钓鱼数据集的TPR@FPR指标：WebGuard++ 与其他模型。

四实验

在本节中，我们进行了广泛的实验来评估所提出的方法。首先，我们描述了实验设置，包括数据集、评估指标、环境和设备。然后，我们将我们提出的方法与其他最先进的方法的网络钓鱼站点检测性能进行比较。最后，我们进行了一些消融实验、跨数据集测试和模型鲁棒性测试。

IV-A 型实验装置

图 3：我们的模型在 ROC 曲线上与其他模型相比的性能。

数据。我们的实验侧重于使用 MTLP 数据集[35]网络钓鱼站点检测数据集、Abdelhakim 数据集网络钓鱼站点检测数据集和 course-cotrain-data 课程分类数据集。

MTLP 数据集是从两个不同的来源编译的：来自 Alexa 排名前 2000 个 URL 的良性样本，以及来自 OpenPhish 的其他随机选择的良性和恶意 URL。该数据集由 50,000 个良性 URL 和 50,000 个恶意 URL 组成，其中包含 HTML 内容、whois 信息和屏幕截图。由于实验的性质和设备限制，我们清理了 MTLP 数据集并均匀采样了 10,000 个数据作为本研究的训练评估数据集。

Abdelhakim 数据集包括 11430 个 URL。该数据集旨在用作基于机器学习的网络钓鱼检测系统的基准。数据集是平衡的，它恰好包含 50% 的网络钓鱼和 50% 的合法 URL。数据集于 2020 年 5 月构建。该数据集包含一个列表 a URL 及其 DOM 树对象，可用于复制和试验新的 URL 和基于内容的功能，以取代网络钓鱼网页的短时间生存。

course-cotrain-data 数据集由 1051 个页面组成，其中 230 个页面位于课程类别中，821 个页面位于非课程类别中。此数据集包含万维网知识库（Web->Kb）于 1997 年 1 月从各大学的计算机科学系收集的 WWW 页的子集。

评估指标。为了更全面、更详细地评估模型，我们使用了以下 'TN'、'FP'、'FN'、'TP'、'ACC'、'PRECISION'、'RECALL'、'F1'、'ROC-AUC'、

'PR-AUC'、'MCC'、

'加权 F1'、'TPR@FPR=0.0001'、'TPR@FPR=0.001'、'TPR@FPR=0.01'、'TPR@FPR=0.1' 评估指标。

TP：模型预测正类且真实值也是正的样本数。 TN：模型预测负类别且 true 值也为负的样本数。 FP：模型预测正类但 true 值为负的样本数。 FN：模型预测负类但 true 值为正的样本数。

ROC-AUC 是 ROC 曲线下的面积，用于度量模型区分正类和负类的能力。

PR-AUC 是 PR 曲线下的面积，它衡量模型在不同召回率下的精确率。

如果分母为零，则 MCC 定义为零。

其中 n 是类别的数量，F⁢1我是我t⁢hcategory 和w我是我t⁢hcategory

TPR@FPR=0.0001、TPR@FPR=0.001、TPR@FPR=0.01、TPR@FPR=0.1：这些指标表示给定假阳性率（FPR）的真阳性率（TPR）。

图 4：我们的模型针对投票机制的消融实验分别在 MTLP 数据集（均匀采样 2000、7000 和 10000 个数据大小）和 Abdelhakim 数据集上进行。

Environment （环境）和 Parameter （参数）设置。模型训练期间的批量大小为 4，Adam 优化器（初始学习率：2e-5，权重衰减：5e-4），dropout rate 0.1，数据集 n 折交叉验证除法随机种子：42 和 10 个训练 epoch。我们使用 PyTorch 1.12.1 、 NVIDIA CUDA12.0 和 Python 3.8.20 在 NVIDIA 3090 上进行训练。

IV-B 型实验结果

IV-B1网络钓鱼检测功能

为了全面评估我们提出的模型 WebGuard++ 在网络钓鱼网站检测领域的性能，我们在两个公开可用的数据集上进行了实验，并将其与几个最先进的模型进行了比较。实验结果包括具有 10,000 个数据点的 MTLP 数据集的结果（见表 I、III）、Abdelhakim 数据集的结果（见表 II、IV）以及两个数据集上不同模型的 ROC 图（图 3）。

根据表 I、III 和图 3 左侧的 ROC 曲线），我们在 MTLP 数据集上的模型有 10,000 个数据点，具有关键的评估指标，如准确度、精度、F1、MCC、加权 F1、TPR@FPR（0.0001）、TPR@FPR（0.001）、TPR@FPR（0.01），等优于其他模型。

我们的模型在 ACC 和 Precision 中均达到最高值，表明它在分类钓鱼网站和普通网站时表现出更高的准确率以及准确率和误报率。同时，F1 和 MCC 的最优值进一步验证了我们的模型在对正负样本进行分类时的平衡性和稳健性，尤其是在类别分配不平衡的情况下。其中，我们的模型在 TPR@FPR（0.0001）、TPR@FPR（0.001）和 TPR@FPR（0.01）等低 FPR 场景下明显领先于其他模型，这在网络钓鱼检测任务中显示出独特的优势。

与其他模型（见表 I、III 和图 3），左）相比，BiLSTM 和 TextCNN 等传统模型的性能明显较低，表明它们在大规模复杂特征方面的不足;而 PMANet 和 TransURL 等高级模型在 F1、MCC 和低 FPR 指标方面优于我们的模型，尽管它们的 AUC 很接近。这表明我们的模型不仅能够准确分类，而且在前置、低误报率等场景下提供了强大的检测能力。

图 5：BiLSTM、TextCNN、TransURL、URLNet 以及本文提出的模型在跨数据集场景中的泛化性能，通过 10 个训练 epoch 下 6 个经典评价指标的趋势变化直观地展示了。

根据表 II、IV 和图 3 右侧的 ROC 曲线，我们的模型在 Abdelhakim 数据集上的 ROC-AUC 中明显优于其他模型，并且在准确率、召回率、F1、加权 F1、PR-AUC、MCC、TPR@FPR （0.0001）、TPR@FPR （0.001）、TPR@FPR （0.01）、TPR@FPR （0.1）和许多其他关键指标上优于其他模型。显然，我们的模型几乎完全压倒了其他模型。

与其他模型的比较（见表 II、IV 和图 3 右）表明，传统模型 BiLSTM 和基础模型 TextCNN 在数据集上的表现明显更差;而 PMANet[36]和 URLBERT[37]在某些指标上表现出色，但在综合性能和低 FPR 方面，它们的表现仍然不如我们的模型。此外，一些生成模型，例如 Semi-GAN[38]和 dephides[39]在 Abdelhakim 数据集上表现相对较差，这进一步凸显了我们模型强大的相关性和泛化能力。

综上所述，我们的模型在钓鱼网站检测任务中表现出优异的表现，无论是在分类准确率、低误报率检测能力还是与不平衡数据的一致性方面，都满足了任务要求。

IV-B2投票机制消融实验

为了验证所提出的创新机制对模型性能的实际增强效果，我们在四个数据（MTLP_2000、MTLP_7000、MTLP_10000 和 Abdelhakim 数据集）的几个关键评估指标下比较分析了添加和不添加投票机制的性能，如图 4 所示). 从总体趋势来看，vote_OUR 在大多数评估指标上都优于无投票，并且在大多数关键指标上表现更好。这一结果表明，创新机制对提高模型的整体识别性能、增强鲁棒性和泛化能力具有显著的积极作用。此外，我们观察到，引入这种机制后，模型的 TPR 在所有设定的 FPR 阈值（0.0001、0.001、0.01 和 0.1）下都显着提高，展示了全面稳定的检测优势。这一现象表明，即使在极低的假阳性率要求下，该机制也能有效增强模型识别阳性样本的能力，从而提高模型在真实高风险场景中的实用性和鲁棒性。综上所述，实验表明，所提出的创新方法在保持整体性能平衡的同时，显著提高了模型在关键指标下的性能，验证了其在高可靠性任务场景中的实际应用价值。如图 4 所示。

图 6：在随机边删除场景下，比较我们的模型和基本 GNN 模型的鲁棒性测试。

IV-B3 号跨数据集泛化性测试

我们对跨数据集course_data进行了泛化测试，结果如图 5 所示。六个子图（a-f）中呈现的实验结果展示了多个模型（BiLSTM、我们的模型、TextCNN、TransTRL 和 URLNet）在 10 个时期中跨六个评估指标的性能：准确率、召回率、ROC-AUC、PR-AUC、TPR@FPR=0.1 和精度。以下是详细的分析，重点介绍了我们的模型与其他基线相比的优势。

（a）准确性。我们的模型实现了近乎完美的准确率（≈1.0），明显优于所有其他模型。 TransURL 的收敛精度也很高，但需要 5 个 epoch，这表明收敛速度较慢。 TextCNN 和 BiLSTM 在较低的准确率值上趋于稳定，而 URLNet 在低得多的水平上保持不变（∼0.8). 我们的模型展示了更快的收敛性和更高的整体性能，表明它在学习方面的稳健性和效率。

（b）召回。在训练结束时，除 URLNet 外的所有模型都实现了高召回率（>0.99）。然而，我们的模型在整个 epoch 中保持了始终如一的高召回率，波动最小。 TransURL 在训练过程中表现出不稳定，在 epoch 5-7 左右出现明显的下降。 URLNet 明显滞后，召回率差（∼0.93). 我们的模型可确保召回的稳定性和可靠性，这是最大限度地减少假阴性的关键指标。

（c） ROC-AUC 的。我们的模型在短短 2 个 epoch 内就达到了 1.0 的完美 ROC-AUC，优于所有基线。 TransURL 收敛到类似的水平，但需要 5 个 epoch，而其他模型（TextCNN、BiLSTM、URLNet）未能超过 0.75。 URLNet 的表现最差，停滞在 0.5 附近，表明判别能力较差。我们模型卓越的 ROC-AUC 突出了其区分类别的特殊能力。

（d） PR-AUC。我们的模型在第 2 个时段达到 1.0 的 PR-AUC，在收敛速度和最终性能方面都优于所有其他模型。 TransURL 获得类似的结果，但需要更多的纪元（5），而 TextCNN 和 BiLSTM 稳定在低得多的水平（∼0.8). URLNet 显示性能最弱，稳定在∼0.75. PR-AUC 的快速和一致优化证明了我们的模型通过平衡精度和召回率来处理不平衡数据集的优势。

（e） TPR@FPR=0.1。我们的模型在第 2 个时段时实现了 TPR@FPR=0.1 of 1.0，明显优于所有基线。 TransURL 显示延迟收敛，仅在 5 个 epoch 后达到类似的性能。 TextCNN 和 BiLSTM 仍然停滞在较低的值（∼0.3），而 URLNet 无法有效执行，保持在 0.0 附近。我们的模型能够在低 FPR 下实现完美的 TPR，这表明它在严格条件下检测真阳性的精度。

（f）精度。我们的模型在 epoch 2 时实现了接近 1.0 的精度值，并在随后的 epoch 中保持稳定性。 TransURL 收敛到类似的精度级别，但需要额外的 epoch （5）。 TextCNN 和 BiLSTM 在低得多的精度水平（∼0.8），而 URLNet 的性能最差（∼0.75). 我们模型的高精度强调了它最大限度地减少误报的能力，这是高风险应用中的基本特性。

实验结果清楚地证明了我们的模型优于其他模型。它更快的收敛速度、更高的整体准确性以及所有指标的一致性能使其成为处理手头任务的可靠且高效的解决方案。与竞争模型相比，我们的方法在学习效率和分类准确性方面都取得了重大进步，巩固了其在给定应用程序中最先进的地位。

IV-B4 号稳健性测试

在鲁棒性评估中，我们对输入图结构应用了概率为 50% 的随机边缘删除，旨在评估不同模型在结构扰动下的弹性。如图 6 中的条形图所示，我们提出的模型在各种评估指标（包括 ACC、精度、召回率、F1、PR-AUC、ROC-AUC、MCC 和加权 F1）中表现出卓越的稳定性，性能下降可以忽略不计，并且始终如一的高精度。

相比之下，GIN 、 GRN 和 GCN 等基线模型对结构扰动表现出相当大的敏感性，性能下降明显更大，尤其是在召回率和 F1 分数方面。如图 6 所示，这些结果强调了我们模型卓越的结构稳健性和泛化能力，即使图形结构受到严重破坏，它仍然有效。

V结论

在本文中，我们提出了一种新的恶意 URL 检测框架 WebGuard++，它由一个跨尺度 URL 语义编码器、一个子图感知 HTML 编码器和一个双向多视图耦合模块组成。子图感知模型允许恶意区域信号相互聚合，并且不太可能被稀释。同时，它还为模型的可解释性提供了思路，当检测到恶意时，可以追溯到一个子区域。此外，多模态特征的特征提取和融合使模型能够更好地理解 URL 和 HTML 信息，提高检测性能。在本文中，经过广泛的实验，我们证实我们的模型在不同的数据大小和数据集上优于基准方法以及以前提出的最先进的技术，并保持了出色的鲁棒性和泛化性。展望未来，我们将努力提高 “WebGuard++” 的性能并探索更多新方法。

通过 HTML 子图和多尺度卷积 BERT 的双向融合实现可解释的恶意 URL 检测