[论文阅读]Synthetic Disinformation Attacks on Automated Fact Verification Systems

发布于:2024-11-29 ⋅ 阅读:(28) ⋅ 点赞:(0)

Synthetic Disinformation Attacks on Automated Fact Verification Systems

Synthetic Disinformation Attacks on Automated Fact Verification Systems| Proceedings of the AAAI Conference on Artificial Intelligence

Proceedings of the AAAI Conference on Artificial Intelligence 2022

先看outline,根据outline来推测文章的核心内容,再去阅读。 

首先系统由两部分组成,一个是AdvAdd,一个是AdvMod。针对这样一个虚假信息:新冠病毒是5G信号塔的辐射导致的,两个模块分别产生一些杜撰的文本信息,插入到证据库中,在判断虚假信息的时候从证据库中寻找相关证据,注入成功就会导致事实检测系统对该虚假信息误判为真。从图中未可知两个模块分别作用于什么,需要读论文了解。

FEVER:Fact Extraction and Verification 事实提取和验证,将自动事实核查中的问题定义为针对大型证据文件存储库的声明验证

在本文中,我们评估了自动虚假信息生成器是否可以有效地污染事实验证系统的证据集,并证明合成虚假信息会大大降低这些系统的性能。我们从两种设置中定义对抗性攻击:对抗性添加 (Adversarial Addition, AdvAdd;§3),将综合生成的文档添加到文档库中,以及对抗性修改 (AdvMod;§4),将额外的自动生成的信息插入到现有文档中。在这两种环境中,我们都策划了大量对抗性的虚假信息文件,并将其注入为 Fever、SciFact 和 CovidFact 共享任务开发的现有事实核查系统的管道中。

结果表明,这些系统受到其证据基础中注入中毒内容的显着影响,在这两种设置下,所有模型的绝对性能都大幅下降。此外,我们的分析表明,这些系统对即使是少量的证据污染也很敏感,并且与人为制作的虚假内容相比,合成虚假信息在欺骗事实验证系统方面更具影响力。最后,我们讨论了我们最重要的发现,以及它们在 NLP 系统持续进步的背景下的重要性

背景

自动事实核查-任务

当前自动事实核查的系统研究通常遵循事实验证和提取程序,即接收自然语言声明(例如,“高血压是 COVID-19 患者的常见合并症”),从可用文件存储库(例如,科学手稿)中收集支持证据,并根据收集到的支持证据对声明的真实性进行预测。下面,文章定义了此管道的两个阶段:证据检索和声明验证。

证据检索

证据检索阶段通常分为两个步骤:文档检索和句子检索。在文档检索期间,将选择证据存储库中与声明相关的文档。现有方法通常使用信息检索方法根据相关性对文档进行排名或使用商业文件索引的公共 API来抓取相关文档。在句子检索阶段,根据这些检索到的文件中的单个句子与主张的相关性来选择它们,通常使用文本蕴涵或句子相似性方法。通常,为了提高计算效率,检索到的句子的数量是有上限的。(这玩意很像RAG检索啊)

声明验证

管道的声明验证阶段根据前一阶段检索到的证据句子评估声明的真实性。根据支持句子中的内容,每个声明通常可以分类为支持 (SUP)、反驳 (REF) 或信息不足 (NEI,尽管某些基准省略了此标签)。系统必须汇总和权衡证据句子以预测最可能的标签。 

自动事实核查-数据集

FEVER数据集:一个包含 185,445 条声明(145,449 条训练、19,998 条开发、19,998 条测试)的数据集,以及从维基百科文章中提取的相应证据来验证它们。由于其规模和独创性,Fever 数据集是评估事实验证系统最流行的基准之一

SCIFACT数据集:包含 1,409 个专家注释的科学主张和相关论文摘要。SciFact 提出了理解科学写作的挑战,因为系统必须从纸质摘要中检索相关句子,并确定这些句子是否支持或反驳所提出的科学主张。它已成为评估科学事实验证系统的流行基准

COVIDFACT数据集:包含从 /r/COVID19 subreddit 抓取(和过滤)的 1,296 个众包声明。证据包括这些说法在 subreddit 上发布时提供的文件,以及来自 Google 搜索查询这些说法的资源。被驳斥的声明是通过更改原始声明中的关键字自动生成的。

合成型虚假信息生成

使用LM来生成虚假信息

Adversarial Addition: 证据库投毒

一句话:添加合成文档到数据库

通过将合成生成的虚假文件注入事实验证模型的证据集中,模拟事实核查模型对错误信息文档数据库污染的潜在脆弱性,并评估对这些系统性能的影响。

我们的方法,即 ADVERSARIAL ADDITION (ADVADD),使用 GROVER 为提出的主张生成合成文件,并在检索证据时将这些假文件提供给事实验证系统。由于 GROVER 在生成虚假文章时需要输入提议的文章标题和发表地点(即网站链接),因此我们使用每个主张作为标题,并将文章发表地点设置为 wikipedia.com。我们为每个主张生成 10 篇文章,并将它们分成若干段落(注:FEVER DB 包含维基百科文章的首段,SCIFACT 包含科学文章的摘要)。表 3 报告了每个基准生成的文档数量统计。

  • ADVADD 方法
    • 使用 GROVER 生成文档:以每个声明为标题,将文章场地设为wikipedia.com,为每个声明生成 10 篇合成文档(段落形式),并根据不同数据集特点进行调整,如 SCIFACT 中设置为medicalnewstoday.com
    • 文档检索与匹配:在 FEVER 中,利用 MediaWiki API 根据声明中的命名实体提及检索相关文章,若合成文档与声明相关文章有重叠则匹配;其他模型根据各自方法检索文档,然后使用基于 BERT 或其他技术的句子检索器选择与声明相关的证据句子
    • 声明验证:各模型基于预训练语言模型或图神经网络等技术对声明进行验证,预测其真实性(支持、反驳或信息不足)

Adversarial Modification: 证据文件投毒

一句话:修改现有证据文档

对抗性修改 (AdvMod) 在两个阶段的过程中模拟了这个设置。首先,我们使用现成的 NLP 工具生成提交给事实验证者的声明的修改版本。然后,我们将修改后的声明附加到证据库中与原始声明相关的文章中。我们以两种方式修改原始声明。

通过应用启发式方法来改变声明,例如数字更改、反义词替换和根据嵌入相似性用近邻替换实体