Exploiting ensembled neural network model for social platform rumor detection-易微帮

Abstract

随着互联网和社交媒体的普及，从海量的事件信息中辨别谣言变得越来越困难。为了提高谣言检测的准确率，深度学习神经网络模型常用于谣言检测任务。首先，本文重现了四种单一神经网络模型的谣言检测实验：长短期记忆网络（LSTM）、文本卷积神经网络（TextCNN）、具有注意力机制的文本循环神经网络（TextRNN_Att）和 Transformer。在此基础上，提出了基于预训练特征提取器和集成学习的模型，并采用加权平均集成算法。结果表明，谣言检测集成学习模型在各项指标上均优于单一模型。然后，针对加权平均集成方法无法确定最优集成参数的问题，提出改进自适应集成模型。选择多层感知器（MLP）作为元模型，通过加权求和并利用MLP神经网络对基模型的预测输出自动训练权重参数微调，改进了传统的综合加权平均模型，实现了自动重量调整。最后，使用快速梯度符号法（FGSM）算法来对抗性地训练模型。结果表明，对抗训练后的集成模型在保证分类性能不降低的前提下，获得了更强的泛化性、鲁棒性和抗攻击性。

关键词：谣言检测、文本分类、集成学习、对抗训练。

1. Introduction

社交网络平台现已成为了解社会热点、公共问题、经济发展趋势的重要渠道。然而，这些平台对其提供的海量信息缺乏有效监管，导致误导性虚假信息通过社交网络迅速传播，从而加速谣言的传播[1]。网上谣言，其受众面广、传播方便，很容易助长群众焦虑、恐慌等情绪，引发舆论情绪和各种形式的集体事件，对社会稳定构成严重威胁[2]。

当前，谣言已成为全球热点话题，持续引起人们的关注。过去五年相关关键词在 Google 上的搜索热度如图 1 所示。

自 2013 年以来，深度学习和人工智能已进入公众意识。深度学习主要基于神经网络，神经网络是旨在模拟人脑神经元工作的机器学习模型 [3]。在此背景下，本文旨在通过调整参数进行优化，使用集成方法来提高单个神经网络模型的性能。此外，采用数据增强技术来扩展数据集，从而增强鲁棒性并提高谣言检测技术的准确性。

谣言检测可以分为两种类型：文本和图像。本文特别关注基于文本的谣言检测。在这种类型中，谣言检测被认为是二进制文本分类问题。国内外谣言检测方法的研究主要包括基于传统机器学习和深度学习方法的技术[4]。

与传统方法相比，深度学习方法的优点是可以从数据中学习有效特征，从而提高特征选择的准确性和效率。它们还克服了与手动注释相关的各种限制。卷积神经网络（CNN）、循环神经网络（RNN）和长短期记忆网络（LSTM）已被用于文本序列表示和文本分类[2]。与传统的机器学习方法相比，深度神经网络在中文文本分类方面显示出显着的改进[5]。

本文提出了一种基于集成学习和文本内容的谣言检测方法。首先，选择TextCNN、TextRNN_Att、LSTM、Transformer作为基础模型，改进单一神经网络的谣言检测模型。多层感知器（MLP）用作加权平均集成的元算法。所提出的改进集成模型不仅寻求最佳加权参数，而且旨在实现最佳测试精度、F1 分数和抗扰动文本。此外，作者采用快速梯度符号法（FGSM）进行对抗训练，以进一步增强集成学习框架中 MLP 模型的安全性、泛化性和鲁棒性。最后，本文对各种集成模型和个体模型的谣言检测精度进行了比较和分析，探讨了不同网络的特点及其在谣言检测过程中的作用。

2. Method

2.1. Dataset

本研究使用的数据集来源于公开的 CED 中国谣言数据集 [6]。该数据集共包含从热门微博平台新浪微博收集的 3,387 条中国谣言数据。其中，有1,538起被标记为谣言，1,849起被标记为非谣言。该数据集还包括与原始微博帖子相关的转发和评论等信息.

在基于文本内容训练集成模型之前，从整个目标数据集中提取文本内容并标记为谣言或非谣言。数据集被分为两组，训练集和测试集的比例分别为 9:1。然后使用训练集以分层方式训练单网络模型和集成学习模型，而测试集用于评估模型的准确性、F1 分数和召回率。本研究的重点在于模型的泛化能力，并以F1分数作为模型选择和改进的标准[7]。

2.2. Neural network

使用为文本分类设计的神经网络模型的架构，模型可以分为 LSTM、TextCNN、TextRNN、TextRCNN、Transformer 和基于集成学习的混合网络模型 [8]。每个神经网络模型的属性和重点如表 1 所示

TextRNN_ATT 是 TextRNN 的扩展，融入了注意力机制。下面简单介绍一下注意力机制。注意力机制的引入提高了文本分类模型的性能和可解释性。如果没有注意力机制，文本序列中的每个单词对分类任务的贡献是相等的。然而，在实际应用中，经常会出现一些不相关的词，对分类任务没有贡献。因此，引入注意力机制来有效衡量每个单词对分类任务的贡献。

2.3. Ensemble learning

集成学习是指聚合多个基分类器以做出集体决策的机器学习方法。它涉及使用简单的分类算法获得不同的基分类器，然后将它们以某种方式组合起来形成强分类器[9]。

本文采用Bagging（训练多个分类器并求平均值）系列算法。对训练集进行子采样，为每个基本模型创建子训练集。然后将所有基础模型的预测组合起来生成最终的预测结果。

Bagging的工作机制如下：

(1)为了从原始样本集中生成训练集，使用Bootstrapping方法在每轮中随机选择n个样本。有些样本可能会在训练集中被多次选择，而另一些样本可能根本不会被选择。这个过程重复 k 次，产生 k 组独立的训练数据。

(2) 根据当前问题使用各种分类或回归方法为每个训练集创建模型。这会产生 k 个模型。

(3) 在分类问题中，通过投票将k个模型的预测组合起来，得到最终结果。对于回归问题，计算 k 个模型的预测平均值，所有模型具有同等重要性。

2.4. Adversarial training

对抗性训练技术是对原始输入样本添加扰动，获得对抗性样本后，用其进行训练，以提高模型的鲁棒性。 2020年ICLR会议论文[10]中提出了改进版本。 FGSM方法利用投影梯度下降的思想来生成对抗样本，并提出了一种范围限制的初始方法，使FGSM能够兼容Mini-batch同质计算。本文采用FGSM方法，工作流程描述如表2所示。

给定一个由对抗训练技术中的参数θ、fθ、数据集(xi,yi)、损失函数ɩ和攻击模型Δ确定的网络，对抗训练技术的学习问题可以定义为以下鲁棒性优化问题：

优化目标为max−min，δ是攻击模型的参数。它的优化是指找到一个干扰最大的消息加入到输入样本中，并且得到的干扰样本对训练网络fθ的影响尽可能小。也可以理解为，干扰信息的加入并没有改变原始样本的极性，同时学习到了部分噪声信息，也提高了模型的抗干扰性，即鲁棒性。这样，在对抗训练中，比普通训练网络多了一个参数学习，δ及其参数可以根据以下公式求解：

3. Result

3.1. Experimental setting and preprocessing

本章的研究实验使用经过预处理和标记的谣言内容数据集作为训练对象，所提出的集成学习采用pytorch框架版本1.12.1并使用Python 3.7实现。本实验在Windows操作系统下与GPU A5000配对。实验中，损失函数采用“CrossEntropyLoss”，优化器采用“Adamw”，学习率调度器采用“CosineAnnealingWarmRestarts”，训练集与测试集的比例为9:1。四个单一神经网络模型分别训练 150、200、30、350 个 epoch，集成学习总共训练 20 个 epoch。

接下来，进行特征工程。考虑到Onehot的维数灾难以及TF-IDF忽略语义的缺点，本文选择Word2Vec（考虑语义关联）来训练特征提取模型，并使用LSTM模型提前进行训练和测试。预训练提取特征提取器搜狗对比中文预训练词向量，也将其带入LSTM作为嵌入层。实验得到的测试准确率如下表3所示，可以看出谣言检测预训练特征提取器更好地带入模型，包含更多的语义信息，并且不需要从0开始训练，推测LSTM中引入的wor2vec受到该数据集大小的限制，因此后续实验使用搜狗新闻中文预训练词向量进行微调，其维度为300维。

3.2. Result comparison of single models

本文先后复现了LSTM、TextCNN、TextRNN_Att、Transformer的谣言检测实验，结合理论与实践感受各自的优势。为了最终选择和改进基于集成学习的混合模型，单一网络模型的谣言检测实验结果如下图2所示。

从图中的数据来看，TextCNN表现更好，优点是速度快，可以捕捉局部文本特征，降低了过拟合的风险。 LSTM 表现平平，但在一定程度上解决了梯度消失和梯度爆炸的问题，同时能够处理长期依赖关系。 TextRNN_Att 很平均，但通过注意力机制，模型可以自适应地关注文本的重要部分。 Transformer 性能较差，捕获全局文本特征，但需要较长的训练时间和大量的计算资源。

本文选择了四种类型的模型：TextCNN、Transformer、LSTM 和 TextRNN_Att，以显着提高谣言检测的精度。它们的权重分别为0.85、0.02、0.11和0.02。实验结果如表4所示。

通过对多个模型的预测进行加权，可以提高模型的整体性能并降低过度拟合的风险。在这个问题中，TextCNN 的权重较大，而 Transformer 和 TextRNN_Att 的权重较小，LSTM 的权重适中，表明 TextCNN 在该任务上表现较好。

在集成模型中，TextCNN 可以是负责捕获局部信息的更重要组件之一。本文实验认为可以通过整合其他模型的优势来弥补TextCNN的优势。 Transformer模型可以更好地处理长文本，更充分地捕获全局信息，因此在集成模型中，可以与TextCNN模型配合，提高整体分类性能。 LSTM 和 TextRNN_Att 模型能够更好地处理较长的文本，因此它们可以与 TextCNN 模型配合使用，以提高整体分类性能。

3.3. Results of ensemble learning

表 5 和图 3 显示了自适应集成模型和众多异构深度学习基础模型在各种指标上的性能。与表3中集成学习模型的指标相比，自适应集成模型与集成学习模型在Precision、Recall、F1 Score方面的数据差距非常小，达到了90%以上。另一方面，具有很强的自适应和自学习特性，不需要手动调整权重比。通过不依赖该领域的人类专业知识，可以节省时间。

通过检查该模块中四个单一模型的索引数据可以看出，TextCNN 在文本特征提取方面表现出色，但处理长文本的能力有限。另一方面，TextRNN_Att 和 LSTM 更适合准确且稳定的顺序数据处理。 Transformer 适用于许多不同的 NLP 任务，但在小数据集上训练时表现较差。

图 4 描述了自适应集成模型的训练过程。自适应模型比单一模型具有更高的训练效率。经过三堂训练后，达到了很高的准确率，并且有收敛的趋势。经过 15 轮训练后，准确率、召回率和 F1 分数分别为 90.90%、90.34% 和 90.58%。与四个独立模型相比，各项指标都有显着提高。这是因为集成模型的功能可以通过集成专门针对多个领域的单个模型来扩展。

3.4. Result of FGSM-ensemble model

本研究在原始数据集上进行FGSM对策样本训练测试以进行泛化性能测试，文本扰动量epsilon设置为0.1。测试是在对策训练后在原始测试集上运行的。表 6 描述了众多指标结果的比较。对抗训练集成模型的测试准确率、召回率和F1分数分别高达91.16%、90.68%和90.89%，表明本研究描述的FGSM-Ensemble模型具有一定的抗文本干扰能力。

4. Conclusion

在这项基于集成神经网络模型的谣言检测研究中，本文首先训练四个独立的单一模型：TextCNN、TextRNN_Att、LSTM和Transformer。然后，使用加权平均，将这些单独的模型组合起来以创建更有效的集成模型。在本文中，对集成模型进行重新训练以确定最佳集成参数。在本研究中，集成中每个模型的重要性由权重向量指定，并且参数通过反向传播过程自动更新。可以优化模型的性能，并且可以通过更改权重向量中的值来发现理想的参数集 .

本文设置权重向量来指定每个模型在集成中的重要性，并通过反向传播算法更新参数以自动调整参数。通过调整权重向量中的值，可以优化模型的性能并找到最佳的参数组合。这种方法允许集成模型自适应地学习不同模型的优点，从而提高整体性能。最后，本文将四个单一模型按照0.5562、0.1477、0.1470、0.1491的比例进行加权整合，模型的Precision、Recall、F1 Score分别为90.90%、90.34%、90.58% ，在测试集中。集成模型在以下方面显着优于四个单一模型测试集的所有指标均优于测试集，因此可以确定集成模型具有较高的分类性能。

随后，为了增强模型的弹性，本文使用FGSM算法进行对抗训练。对原始数据应用较小的扰动以创建对抗性样本。最佳模型是通过使用新鲜样本重新训练模型，然后在原始数据集上对其进行评估来创建的。使用权重分别为 0.5307、0.1718、0.1411 和 0.1564 创建的四个单一模型，在测试集中进行对抗训练后，集成模型的精度、召回率和 F1 分数分别为 91.16%、90.68% 和 90.89%。与对抗性训练之前的集成模型相比，对抗性训练之后的集成模型具有更好的泛化性、鲁棒性和抗攻击性。

本论文的研究方面可以进一步探索和更深入的思考，一些不足之处可以改进和期待。首先，对于研究对象而言，由于谣言的形式和类型非常多样，需要更大且有代表性的数据集来解决数据集约化问题。其次，在文本预处理方面，当前的谣言检测模型缺乏可解释性和泛化能力。第三，对于核心技术，可视化可以从增加注意力机制开始，更直观地观察各个模型组合时的适用性。基于此，可以找到更好的集成学习模型组合的方法，例如使用动态分类器集成，以提高谣言的早期检测和泛化性能。

Exploiting ensembled neural network model for social platform rumor detection