SparkUI-Parser Enhancing GUI Perception with Robust Grounding and Parsing-EW帮帮网

SparkUI-Parser: Enhancing GUI Perception with Robust Grounding and Parsing

Authors: Hongyi Jing, Jiafu Chen, Chen Rao, Ziqiang Dang, Jiajie Teng, Tianyi Chu, Juncheng Mo, Shuo Fang, Huaizhong Lin, Rui Lv, Chenguang Ma, Lei Zhao

Deep-Dive Summary:

SparkUI-Parser：通过稳健的定位与解析增强GUI感知

摘要

现有的多模态大型语言模型（MLLMs）在图形用户界面（GUI）感知方面取得了显著进展。然而，现有方法仍面临以下挑战：1）基于文本自回归机制的离散坐标建模导致定位精度较低和推理速度较慢；2）只能定位预定义的元素集，无法解析整个界面，限制了广泛应用和下游任务支持。为解决这些问题，我们提出了SparkUI-Parser，一种新颖的端到端框架，同时实现更高的定位精度和细粒度的全界面解析能力。具体而言，我们基于预训练的多模态大型语言模型（MLLM），结合额外的令牌路由器和坐标解码器，执行连续坐标建模，有效缓解了离散输出特性和MLLM逐令牌生成过程的局限性，从而提升了精度和推理速度。此外，我们引入了一种基于改进匈牙利匹配算法的拒绝机制，使模型能够识别并拒绝不存在的元素，减少误报。我们还提出了ScreenParse，一个严格构建的基准测试，用于系统性地评估GUI模型在不同场景下的结构感知能力。大量实验表明，我们的方法在ScreenSpot、ScreenSpot-v2、CAGUI-Grounding和ScreenParse基准测试中持续优于最先进的方法。资源可在https://github.com/antgroup/SparkUI-Parser获取。

Figure 1: A demonstration of multi-target grounding, rejection of non-existent elements grounding, and parsing on Qwen2.5-VLandours.

1 引言

面向GUI的多模态大型语言模型能够整合视觉和文本数据，以理解和交互图形用户界面，为创建GUI代理提供了坚实基础。GUI代理有潜力自主操作各种设备，将人机交互从完全手动过程转变为自动化和委托工作流程。由于通用MLLMs的训练数据主要是自然图像，其在GUI图像上的感知能力不足，限制了其在GUI特定场景中的有效性。自然图像通常包含复杂场景和多样对象，而GUI图像更具结构化，包含文本、按钮和输入框等具有特定功能和布局的元素。理想的GUI MLLMs不仅需要理解多变且信息密集的界面，还需精确执行基本操作，如理解界面元素的语义并输出精确坐标。

已有研究通过在GUI界面和任务上后训练MLLMs，专注于通过定位图标或文本来改进GUI感知，取得了可喜的成果。然而，这些方法在感知GUI界面时仍存在一些局限性：1）直接在通用MLLMs上微调，基于离散令牌概率分布的文本自回归机制导致结果不准确且效率低下；2）仅关注定位和交互指定元素，无法提供整个用户界面的详细解析感知；3）当要求定位不存在的元素时，模型会返回错误位置或生成无关响应，影响下游任务的可靠性和用户体验。

为解决上述问题，我们提出了一个新颖的端到端模型，SparkUI-Parser，实现稳健的定位和解析。该模型通过“路由-预测”框架高效处理视觉和语言信息，包括MLLM、令牌路由器、视觉适配器、坐标解码器和训练阶段的元素匹配器。MLLM的输出令牌由令牌路由器分类为文本令牌和视觉定位令牌，文本令牌解码为元素语义，视觉定位令牌结合视觉适配器的特征由坐标解码器处理以实现定位。轻量级坐标解码器弥合了MLLM基于概率的离散生成与图像空间连续特性之间的差距，提供更高的定位精度和更高效的推理。我们还引入了拒绝令牌来表示界面中不存在的元素，跳过其坐标解码过程，减少错误坐标生成的风险。

主要贡献如下：

首次提出端到端MLLM用于GUI感知，同时实现稳健的定位和用户界面解析，提供语义和结构的全面感知。
提出“路由-预测”框架，将离散词汇坐标建模转换为连续空间坐标值，提升GUI定位和解析精度，平均提高约3%的定位精度并加速推理。
提出ScreenParse基准测试，评估模型在定位特定元素和感知整体界面结构的能力，并提出元素召回率、元素精度和语义相似性等量化评估指标。
引入多目标定位和不存在元素拒绝能力，增强现实场景的鲁棒性和可靠性。

2 相关工作

2.1 通用MLLMs

近年来，通用MLLMs取得快速发展。GPT-4V和Gemini通过大规模网络数据和人类反馈强化学习提升了零样本视觉理解和推理能力。开源模型如LLaVA、Qwen-VL和InternVL通过指令调整高效对齐视觉和语言输入，支持多模态。尽管如此，这些模型主要在自然图像上训练，在GUI特定场景中的感知能力有限。

2.2 GUI感知的MLLMs

为实现GUI感知，研究通过从用户界面提取的文本-位置对微调MLLMs。Seeclick首次实现基于用户界面的自动GUI感知，Ferret-UI使用动态分辨率策略增强界面细节感知，Aguvis和UI-TARS通过大量标注数据和推理范式提升GUI感知能力。OmniParser利用专家模型提取图标和文本，并应用GPT-4V生成元素功能。然而，这些方法仍存在以下问题：1）仅实现预定义元素的定位，无法正确处理不存在的元素；2）离散坐标建模牺牲了定位精度和推理速度；3）无法实现整个界面的解析或需额外工具以非端到端方式完成解析。

3 方法

现有基于MLLMs的GUI感知方法通常以离散文本令牌形式生成坐标，导致定位不准确。我们设计了一个高效的“路由-预测”框架，解耦语义理解和坐标优化，利用MLLM的原生空间感知能力。SparkUI-Parser的整体架构如图2所示。

3.1 模型架构

框架包括MLLM、令牌路由器、视觉适配器、坐标解码器和元素匹配器。给定用户指令和界面，令牌路由器将MLLM的输出令牌分类为文本令牌和特殊令牌（[VG]和[REJ]）。[VG]令牌和视觉适配器的多模态特征输入坐标解码器以生成精确坐标，[REJ]令牌被丢弃。文本令牌由MLLM默认解码。训练阶段使用元素匹配器建立预测与真实元素的语义和空间对应。

MLLM：通过LoRA微调预训练MLLM的视觉和语言部分，增强GUI感知能力，处理用户指令和界面以获取语义特征：
$f_{token} \rightarrow \mathcal{F}_{MLLM}(I, T_{instruction}).$

令牌路由器：将MLLM输出令牌分为语义令牌和位置令牌（[VG]和[REJ]），[REJ]令牌被丢弃，[VG]令牌进一步处理以获取精确坐标。

视觉适配器：利用MLLM的视觉编码器并微调适配器，输出增强的视觉特征：
$f_{vision} \rightarrow \mathcal{F}_{adapter}(\mathcal{F}_{ViE}(I)).$

坐标解码器：轻量级解码器结合[VG]令牌的文本特征和视觉适配器的特征，生成精确的边界框坐标：
$O_{BBox} \rightarrow \mathcal{F}_{decoder}(f_{token[VG]}, f_{vision}).$

元素匹配器：使用改进的匈牙利匹配算法，基于语义和位置对预测与真实元素进行匹配，缓解输出顺序变化的影响。

3.2 训练目标

为处理复杂任务，我们设计了一组训练目标，确保训练稳定收敛。使用改进的匈牙利匹配算法计算预测元素与真实元素的最优双射匹配，结合语义和空间属性，定义匹配成本：
$\sigma = \arg\min C_{match}(y_i, \hat{y}_j), \quad \text{if } C_{match}(y_i, \hat{y}_j) > \mu,$
$C_{match} = \lambda_{IoU} \mathcal{L}_{IoU}(b_i, \hat{b}_j) + \lambda_{sem} \mathcal{L}_{sem}(t_i, \hat{t}_j).$

匹配后，使用交叉熵损失（文本）、L1损失和IoU损失（边界框）计算元素级损失：
$\mathcal{L}_i = \lambda_{CE} \mathcal{L}_{CE}(t_i, \hat{t}_\sigma) + \lambda_1 \mathcal{L}_1(b_i, \hat{b}_\sigma) + \lambda_{IoU} \mathcal{L}_{IoU}(b_i, \hat{b}_\sigma).$

总损失为：

4 基准测试

4.1 数据收集与标注

我们构建了ScreenParse基准测试，涵盖不同领域和应用的界面，确保设计、功能和复杂性的多样性。基于ScreenSpot基准测试，我们重新标注了所有界面，包括元素类型、语义标签和边界框，还标注了常见中文应用的界面。使用Grounding DINO检测图标，Paddle-OCR提取文本，非最大抑制（NMS）过滤重叠边界框，并通过预训练MLLM补充语义，手动检查确保数据质量。

Figure 4: Examples of data annotation in ScreenParse. Ele-ment types, semantics, bounding boxes for all elements areannotated.

4.2 数据统计

基准测试包含约800张图像（中英文各400张），每张界面平均标注36个元素，包括文本（57.5%）和图标（42.5%）。

4.3 评估指标

边界框性能：引入元素召回率（正确定位元素与真实元素总数的比率）和元素精度（正确定位元素与预测元素总数的比率）。

语义性能：通过语义相似性评估模型预测语义与真实标注的匹配程度。

5 实验

5.1 实验设置

使用InternVL2.5-8B作为基础MLLM，视觉适配器为MLP模块，坐标解码器为基于变换器的架构。训练数据包括515k样本（英文400k定位+5k解析，中文100k定位+10k解析）。比较基线包括GPT-4o、Claude、Gemini 2.0等商业模型及SeeClick、CogAgent等学术模型。

5.2 定位结果

在ScreenSpot、ScreenSpot-v2和CAGUI-Grounding基准测试中，SparkUI-Parser凭借坐标解码器和令牌路由器实现最优性能和最快推理速度，支持多语言界面和多样指令任务。

Table 1: GUI grounding accuracy comparison of various methods on ScreenSpot and ScreenSpot-v2. In each column on differ-ent benchmarks, the best and second best performance are marked, where “-" indicates that the information cannot be obtaineddue to missing values or API usage.

Table 2: GUI grounding accuracy comparison of variousmethods on CAGUI-Grounding. The best and second bestperformance are marked.

5.3 解析结果

在ScreenParse基准测试中，SparkUI-Parser在元素召回率、精度和语义相似性方面表现优异，推理时间显著减少。

Table 3: GUI parsing evaluation of various methods on ScreenParse. The best and second best performance are marked, where""' indicates the time consumption cannot be obtained because of API usage.

5.4 消融研究

消融研究验证了坐标解码器、视觉适配器、元素匹配器和解析数据集的有效性，证明其对定位和解析性能的提升。

Table 4: Ablation study to analyze the effectiveness of each component in our method, for conciseness and clarity of presenta-tion, we primarily focus on results on ScreenSpot-v2 and ScreenParse.

6 结论

我们提出了“路由-预测”框架，解耦用户界面元素的语义和位置感知，通过专用坐标解码器将位置特征映射到连续坐标空间，在ScreenSpot、ScreenSpot-v2、CAGUI-Grounding和ScreenParse基准测试中实现最优性能和最高推理效率。引入的拒绝机制增强了模型的鲁棒性和可靠性。我们还发布了ScreenParse基准测试，促进社区对GUI解析的研究。

Original Abstract: The existing Multimodal Large Language Models (MLLMs) for GUI perception have
made great progress. However, the following challenges still exist in prior
methods: 1) They model discrete coordinates based on text autoregressive
mechanism, which results in lower grounding accuracy and slower inference
speed. 2) They can only locate predefined sets of elements and are not capable
of parsing the entire interface, which hampers the broad application and
support for downstream tasks. To address the above issues, we propose
SparkUI-Parser, a novel end-to-end framework where higher localization
precision and fine-grained parsing capability of the entire interface are
simultaneously achieved. Specifically, instead of using probability-based
discrete modeling, we perform continuous modeling of coordinates based on a
pre-trained Multimodal Large Language Model (MLLM) with an additional token
router and coordinate decoder. This effectively mitigates the limitations
inherent in the discrete output characteristics and the token-by-token
generation process of MLLMs, consequently boosting both the accuracy and the
inference speed. To further enhance robustness, a rejection mechanism based on
a modified Hungarian matching algorithm is introduced, which empowers the model
to identify and reject non-existent elements, thereby reducing false positives.
Moreover, we present ScreenParse, a rigorously constructed benchmark to
systematically assess structural perception capabilities of GUI models across
diverse scenarios. Extensive experiments demonstrate that our approach
consistently outperforms SOTA methods on ScreenSpot, ScreenSpot-v2,
CAGUI-Grounding and ScreenParse benchmarks. The resources are available at
https://github.com/antgroup/SparkUI-Parser.

PDF Link: 2509.04908v1

SparkUI-Parser Enhancing GUI Perception with Robust Grounding and Parsing