2023 sigir
1 intro
- 在导航地图(如 Google Maps)、打车应用(如 Uber)和外卖平台(如 Uber Eats)等位置服务(LBS)中,查询与兴趣点(POI)匹配是一项核心功能
- 其目标是根据用户的显式或隐式意图找到一组候选兴趣点
- 一个典型的查询-POI 匹配流程采用“两阶段检索-排序”的管线架构
- 轻量级的检索器首先从海量数据库中检索初步候选POI集合
- 排序器对这些候选项按相关性进行排序
- 一个查询通常会在目标 POI 的背景中提到多个地理对象
- 要实现准确匹配,完整地理解情境地理上下文(Geographic Context, GC)是必要的
- 例如,给定查询“地下通道上的学校门口”,虽然多个相关 POI 被检索出来,但只有“南开中学”的侧门 (c) 位于“地下通道”上,才是最匹配的目标。
- ——>提出了一种利用 GC 进行查询-POI 匹配的新方法,称为多模态地理语言模型 MGeo
- 包含一个地理编码器与一个多模态交互模块
- 地理编码器将 GC 视作一种新模态进行建模
- 多模态交互模块则融合了地理特征与语义特征,实现查询与 POI 之间的文本、地理及跨模态交互
- 包含一个地理编码器与一个多模态交互模块
- 受隐私限制,当前尚无公开的用于查询-POI 匹配的加密解除数据集可供研究使用
- 论文提出了GeoTES(Geographic Textual Similarity)数据集
- 一个面向 GC 的查询-POI 匹配大规模开源基准数据集
- POI 来源于开放 GIS 平台 OpenStreetMap(OSM),查询则由标注人员手工撰写,从而避免了隐私问题
- 论文提出了GeoTES(Geographic Textual Similarity)数据集
2相关工作
2.1相关性建模
- 传统的大规模语料检索方法通常采用精确的词项匹配
- 这类启发式检索器借助倒排列表结构具有低延迟的优点
- 但它们的相似度计算仅依赖文档统计特征
- 近年来,深度神经网络(DNN)被引入到信息检索(IR)中
- 考虑到效率与效果的权衡,PLM 相关的 IR 模型大致分为两种架构:bi-encoder 和 cross-encoder
- 前者支持高效的索引,常用于检索阶段
- 后者将查询与文档拼接后进行全面交互,虽能提供更精确的相关性估计,但计算成本更高,通常只用于排序阶段
- 考虑到效率与效果的权衡,PLM 相关的 IR 模型大致分为两种架构:bi-encoder 和 cross-encoder
2.2 多模态表示学习
2.3 查询-POI 匹配(Query-POI Matching)
3 预备知识
- 设 P为兴趣点(POIs)的集合。
- P 可以是一个包含数十个候选 POI 的小集合,也可以是一个包含海量 POI 的大数据库
- 每个 POI p 包括文本描述 tp 和地理位置 lp
- POI 的文本描述tp 包含其正式地址和名称
- 设 q 表示用户发起的查询
- 查询的文本描述 tq可分为三种类型:
- 普通地址描述
- 正式街道门牌号描述
- 口语化描述
- 查询的地理位置 lq可以是用户当前位置,也可以是用户在地图上浏览某区域时所查看地图中心点的位置
- lq 可能存在,也可能未被提供
- 查询的文本描述 tq可分为三种类型:
- 将 POI 或查询的地理位置统一记作 lpq
3.1 Query-POI 匹配问题
- 给定 POI 集合 P 和用户的查询 q,目标是估计最符合用户意图的 POI p∈P
- 定义了两个子任务
- 排序任务
- 对于排序任务,P是一个有限长度的候选 POI 列表,并且包含最匹配的 POI
- 检索任务
- 在检索任务中,P 是包含所有 POI 的海量数据库,其总量非常大
- 排序任务
3.2 地理对象(Geographic object)
- 设G 为空间数据库,每个地理对象 o∈G 由 m个顶点的地理位置序列
描述
- 地理对象通过其 ID、地图上的绝对位置和形状类型
来固有表征
3.3 地理上下文(Geographic Context, GC)
- 给定 POI 或查询的位置
,其中l^{pq}以地理坐标(经度、纬度)表示,GC 由
与其邻近地理对象
之间的关系决定
- 形式上,关系类型
表示
是否在 oi内部,或与之存在某种距离。相对位置
则描绘
与 oi 之间更详细的位置信息关系。
4 GeoTES 基准数据集
- 第一个用于 Query-POI 匹配 的开源基准数据集
- POI 数据来自开源的 OpenStreetMap (OSM)
- 查询由标注员手动生成,以避免隐私问题
- 在当前版本的 GeoTES 中,所有 POI 均位于 中国杭州,并使用 中文文本
- 每条查询都配有一个 正样本 POI,并在排序任务中提供数量有限的 负样本 POI
4.1 标注过程
- 招募了 20 名标注员 和 4 名有经验的专家 来根据第3节定义的 POI 对三种类型的查询进行标注
- 为了模拟现实场景中查询的位置,标注员被要求对于 50% 的查询,在对应 POI 周围 1 公里范围内随机选取一个地理位置;其余查询则在全城市范围内随机选择一个位置
4.2 数据集统计信息
- 总共包含约 90,000 条查询,查询的平均长度为 17.2 个字符
- 包含约 2,849,754 个 POI,其平均长度为 13.7 个字符
- 对于训练集、验证集和 排序测试集,我们提供一份候选 POI 列表,并确保其中包含一个 精确匹配的正样本 POI
- 在 检索测试集 中,虽然查询与排序测试集相同,但 不会提供候选 POI 列表
5 方法
MGeo 由两个核心模块组成:
地理编码器(Geographic Encoder)
多模态交互模块(Multi-Modal Interaction Module)
MGeo 的完整训练流程包括三个阶段:
首先独立训练地理编码器以学习地理上下文(GC)的表示,并在后续阶段将其参数固定;
然后使用文本-GC 对进行多模态预训练,将地理对象与文本共同建模,并借助大量配对样本进行预训练;
最后在排序与检索任务上微调 MGeo,以获得显著性能提升。