论文阅读:ADVWEB : CONTROLLABLE BLACK-BOX ATTACKS ON VLM-POWERED WEB AGENTS

发布于:2025-06-01 ⋅ 阅读:(27) ⋅ 点赞:(0)

原文:2410.17401

源码:https://ai-secure.github.io/AdvWeb/


摘要:

本文设计了一种专门针对web agent的黑盒攻击框架,通过训练一个对抗性提示生成模型,在网页中自动生成并注入“隐形”对抗性字符串,引导网页代理执行精心设计的恶意操作。

现有方法的缺陷:

  • 现在的对抗性攻击主要聚焦于简单目标(如产生有害回复),难以处理更复杂的攻击目标;
  • 现有的对web agent攻击要么就是通过手工设计注入恶意提示,缺乏扩展性和灵活性,要么就是依赖白盒梯度信息,即使迁移到黑盒场景下,也难以保持多VLM模型间的转移;

威胁模型:

攻击目标:保持操作类型不变的前提下,将正常操作的参数改为攻击者指定的恶意参数,a_adv = (o, r_adv, e)

攻击者能力:仅能获取网页的 HTML 内容 h,并将其修改为攻击后的 h_adv;

攻击限制:

  • 隐蔽性:保证修改后的 HTML 内容 h_adv 在渲染后与原始内容无异,即 I(h) = I(h_adv),以避免用户察觉任何变化;
  • 可控性:攻击者应能在无需再次与代理交互或重新优化的情况下,仅通过修改对抗字符串中的特定子串即刻切换攻击目标。(比如现在已经有一个恶意的HTML内容h_adv能使agent买NVIDIA的股票,你只要把它的参数r_adv从NVIDIA改成r′_adv APPLE就能更改目标);

 方法:

通过训练一个对抗性提示生成模型,通过把模型生成的恶意prompt注入到特定的攻击目标(比如HTML中的Input输入框),将良性的HTML内容h转为恶意的HTML内容h_adv,并且通过特定的HTML字段、特性(如aria-label="q")将恶意prompt隐藏,使其不在页面上显示,保证其隐蔽性。同时为了保证可控性,我们通过训练模型生成带占位符的提示模板(占位符来表示攻击目标),在注入HTML后在填入具体的目标。

模型训练

1.数据集准备

收集(算法2中)LLMs生成的n条攻击prompt作为训练数据集,并将训练数据集根据黑盒web agent的反馈分为positive和negative两个子集;

2.πpre→πSFT

使用positive子集对预训练模型ΠPre进行监督微调,根据公式2,引导模型Π生成更有可能引导web agent执行目标操作的提示,得到监督微调后的模型得到ΠSFT;

3.πSFT​→πref​:

复制SFT模型,作为DPO的参考策略;

4.πSFT​→πθfinal​:

在positive和negative子集上进行DPO强化学习训练πSFT,通过公式3。

Q:

为什么要加入监督微调?

因为纯RL在此场景下不稳定,加入监督微调来稳定训练。


网站公告

今日签到

点亮在社区的每一天
去签到