论文:Mingling of Clear and Muddy Water:Understanding and Detecting Semantic Confusion in Blackhat SEO

发布于:2022-12-19 ⋅ 阅读:(377) ⋅ 点赞:(0)

针对滥用搜索引擎的排名算法来推广非法内容的现象(黑帽SEO),提出了语义混淆检测系统(SCDS)来检测基于语义差异的黑帽SEO网页,建立了两个分离的深度学习分类器衡量合法和非法两个维度,这样可以识别语义差异的网页,并进一步检查这些页面上的外部超链接,以检测黑帽 SEO 网页。并在实际场景中部署。

具体:

  1. 系统地调查黑帽SEO中一种近期趋势:语义混淆
  2. 构建SCDS检测系统,识别网页主题和网页上下文中利用语义混淆的地下产业内容
  3. 部署检测系统至实际应用场景中,并取得了有效的检测效果

基于语义的技术背景

初级层面(例如:单词):用相似语义但不同词替换网页中的word

高级层面(例如:语义):从合法网站获取大量正常内容,精心塞满一小部分地下产业的内容,并将他们组成一个网页。如此做法,使得页面被当做普通网页,地下产业的推广内容将被搜索引擎索引。黑帽SEO这种高级做法被称为语义混淆。

语义混淆检测模块

三分类问题:正常网站(合法),语义混淆(部分非法),地下(非法)

1. 数据集

训练集:2个单独的数据集分别训练不同的任务:正常语义上下文识别和地下产业检测。

正常语义上下文分类:

清华大学自然语言处理实验室推出的中文文本分类工具包。THUCNEWS数据集 (THUCTC: 一个高效的中文文本分类工具)  ,包括体育、娱乐、家具、彩票、房产、时尚、时政、游戏、社会、科技、金融等。

地下产业检测:百度标记的100000个普通网页,30000个地下产业网页(50%非法赌博网页,50%色情网页)

测试集:反正就很多域名和DNS记录

2. SCDS检测系统组件

数据处理器

处理步骤:(1)去掉css、js等;(2)提取网页的文本内容,保留hidden elements;(3)中文分词(4)删除停用词和只出现一次的词,缓解过拟合;(5)将处理后的页面的词放一起,作为语义分析的文本

语义分析器

建立两个分类器去度量网页与合法话题和地下主题的语义相似性,分别是normal topics分类器2和非法topics分类器1。

任务分为4个类别:

(1)地下产业页面:分类器1的输出是1

(2)黑帽SEO:分类器1的输出在[0.5,1],并且分类器2的输出是网页属于某个特定的话题,并且打分大于0.7。

(3)gray网页:分类器1的输出在[0.2, 0.5]

(4)正常网页:分类器1的输出小于0.2,并且分类器2判定其为某一个话题的打分大于0.8。

SEO收集器

从被识别为黑帽SEO的页面里递归地扩展更多的候选页面,将这些候选页面再发送至语义分析器。

两个收集途径:其一:基于网页超链接的扩展,解析来自被识别为黑帽SEO页面的超链接,如果这些超链接被检测为黑帽SEO,则继续递归地检测。其二:基于搜索引擎结果的扩充,可以检测出同域名下的黑帽SEO,将一些黑帽SEO域名作为种子集,搜索这些域名下被搜索引擎索引的urls。 通过语义分析器递归地检查这些页面是否是基于语义混淆的黑帽SEO。

3. 实现和评估

(1) 实现

训练和检测:在地下产业检测数据集和普通语义上下文识别数据集上分别训练了分类器1和分类器2。首先用beautifulsoup解析网页文本,通过jieba分词,移除空字符和停用词;然后采用keras和TextCNN训练分类器,训练测试3:1。

(2)评估

由于缺乏真值,人工检查结果去验证检测算法,在之前的研究中这是普遍的评估方式,从黑帽SEO和灰色页面的检测结果中分别随机抽取1000条。两位经验丰富的研究者分别评估,当且仅当两位均判定为SEO或者灰色页面时,判定有效。

评估指南:

(1)gray页面:检查页面是否同时存在地下产业内容和正常内容

(2)黑帽SEO页面:检查(1)中的语义混淆,并且检查页面是否有指向外部页面的超链接,然后在搜索引擎中检查这些域名,确认是否有地下产业内容被搜索引擎索引。

Measurement(分析)

黑帽SEO

在黑帽SEO检测中,探索了这种网页的特征,并将其分为3类:

(1)有链接的黑帽SEO。为了得到更好的SEO效果,制作者通常嵌入一些指向其他黑帽SEO页面或目标页面的外部链接。

(2)有iframe的黑帽SEO。如果网页包含iframe tag,检查这个tag的width/height属性,若宽高属性值100%,大约2000px,那么有可能是黑帽SEO。

(3)有伪装的黑帽SEO。通过脚本实现:如果是用户访问就呈现黑帽SEO的内容,如果是搜索引擎爬取,就呈现复制过来的正常内容。 为了识别这种策略。采取普通获取和模拟搜索引擎两种方式获取网页内容,如果两种方式或渠道的网页内容不一致,那可能就是伪装的黑帽SEO。

灰度页面

后面大致看看得了...


网站公告

今日签到

点亮在社区的每一天
去签到