论文阅读：ADVWEB : CONTROLLABLE BLACK-BOX ATTACKS ON VLM-POWERED WEB AGENTS

发布于：2025-06-01 ⋅ 阅读:(141) ⋅ 点赞:(0)

原文：2410.17401

源码：https://ai-secure.github.io/AdvWeb/

摘要：

本文设计了一种专门针对web agent的黑盒攻击框架，通过训练一个对抗性提示生成模型，在网页中自动生成并注入“隐形”对抗性字符串，引导网页代理执行精心设计的恶意操作。

现有方法的缺陷：

现在的对抗性攻击主要聚焦于简单目标（如产生有害回复），难以处理更复杂的攻击目标；
现有的对web agent攻击要么就是通过手工设计注入恶意提示，缺乏扩展性和灵活性，要么就是依赖白盒梯度信息，即使迁移到黑盒场景下，也难以保持多VLM模型间的转移；

威胁模型：

攻击目标：保持操作类型不变的前提下，将正常操作的参数改为攻击者指定的恶意参数，a_adv = (o, r_adv, e)

攻击者能力：仅能获取网页的 HTML 内容 h，并将其修改为攻击后的 h_adv；

攻击限制：

隐蔽性：保证修改后的 HTML 内容 h_adv 在渲染后与原始内容无异，即 I(h) = I(h_adv)，以避免用户察觉任何变化;
可控性：攻击者应能在无需再次与代理交互或重新优化的情况下，仅通过修改对抗字符串中的特定子串即刻切换攻击目标。（比如现在已经有一个恶意的HTML内容h_adv能使agent买NVIDIA的股票，你只要把它的参数r_adv从NVIDIA改成r′_adv APPLE就能更改目标）;

方法：

通过训练一个对抗性提示生成模型，通过把模型生成的恶意prompt注入到特定的攻击目标（比如HTML中的Input输入框），将良性的HTML内容h转为恶意的HTML内容h_adv，并且通过特定的HTML字段、特性（如aria-label="q"）将恶意prompt隐藏，使其不在页面上显示，保证其隐蔽性。同时为了保证可控性，我们通过训练模型生成带占位符的提示模板（占位符来表示攻击目标），在注入HTML后在填入具体的目标。

模型训练

1.数据集准备

收集（算法2中）LLMs生成的n条攻击prompt作为训练数据集，并将训练数据集根据黑盒web agent的反馈分为positive和negative两个子集；

2.πpre→πSFT

使用positive子集对预训练模型ΠPre进行监督微调，根据公式2，引导模型Π生成更有可能引导web agent执行目标操作的提示，得到监督微调后的模型得到ΠSFT；

3.πSFT→πref：

复制SFT模型，作为DPO的参考策略；

4.πSFT→πθfinal:

在positive和negative子集上进行DPO强化学习训练πSFT，通过公式3。

Q:

为什么要加入监督微调？

因为纯RL在此场景下不稳定，加入监督微调来稳定训练。

论文阅读：ADVWEB : CONTROLLABLE BLACK-BOX ATTACKS ON VLM-POWERED WEB AGENTS

摘要：

现有方法的缺陷：

威胁模型：

方法：

模型训练

1.数据集准备

2.πpre→πSFT

3.πSFT→πref：

4.πSFT→πθfinal:

Q:

网站公告

今日签到

热门文章

最新发布

论文阅读：ADVWEB : CONTROLLABLE BLACK-BOX ATTACKS ON VLM-POWERED WEB AGENTS

摘要：

现有方法的缺陷：

威胁模型：

方法：

模型训练

1.数据集准备

2.πpre→πSFT

3.πSFT​→πref​：

4.πSFT​→πθfinal​:

Q:

网站公告

今日签到

热门文章

最新发布

3.πSFT→πref：

4.πSFT→πθfinal: