作者:Xinyuan Zhang, Yonglin Tian, Fei Lin, Yue Liu, Jing Ma, Kornélia Sára Szatmáry, Fei-Yue Wang
单位:中国科学院大学人工智能学院,中科院自动化研究所多模态人工智能系统国家重点实验室,澳门科技大学创新工程学院工程科学系,中国船舶科学研究中心,匈牙利欧拜达大学,中科院复杂系统管理与控制国家重点实验室
论文标题:LogisticsVLN: Vision-Language Navigation For Low-Altitude Terminal Delivery Based on Agentic UAVs
论文链接:https://arxiv.org/pdf/2505.03460
主要贡献
提出LogisticsVLN系统:这是首个针对窗口级终端配送场景的基于无人机的视觉语言导航(VLN)系统,仅使用简单传感器和轻量级大型模型,无需事先了解环境或微调,即可在未见环境中高度部署。
构建VLD数据集:创建了专注于终端配送的连续空中场景的视觉语言配送(VLD)数据集,填补了现有VLN基准测试的空白。该数据集在CARLA模拟器中构建,提供多样化的场景和任务,用于评估最后一公里无人机配送系统。
应用多模态大型语言模型(MLLMs):在空中配送环境中应用MLLMs,并评估其在每个子任务中的作用和局限性。并为在现实世界中部署基于基础模型的视觉语言配送系统提供见解。
研究背景
随着电子商务和城市化的快速发展,物流已成为现代社会的关键组成部分,尤其是稳定、高效和以用户为中心的终端配送需求日益增长。终端配送是指将货物直接运输到最终用户的住所的最后一步。
传统的终端配送主要依赖地面机器人,而现有的基于无人机的VLN任务大多关注长距离、粗粒度的目标,不适合精确的终端配送场景。
为了克服这些挑战,作者提出了LogisticsVLN系统,旨在利用轻量级多模态大型语言模型(MLLMs)实现无人机在终端配送场景中的视觉语言导航,提供一个可扩展的解决方案,用于窗口级终端配送任务。
研究方法
任务定义
无人机从靠近目标建筑的位置开始,仅根据自然语言请求到达用户的特定窗口,无需依赖预先构建的地图。
目标是制定一个策略,将无人机在每个时间步的观测映射到一个动作,使得无人机的最终状态满足成功交付的条件,即到达目标窗口的邻近区域。
系统概述
无人机配备了五对RGB-深度相机,用于捕捉周围环境的半全景图像。
系统包括请求理解模块、楼层定位模块和目标探索模块,分别负责解释用户请求、引导无人机到达目标楼层和识别目标窗口。
请求理解
使用DeepSeek-R1Distill-Qwen-14B模型和三步链式推理(CoT)提示来解析用户请求,提取目标楼层号和目标周围的独特物体信息。
楼层定位
通过一个基于楼层计数的视觉语言模型(VLM),无人机从建筑底部开始,沿着垂直路径上升,根据相机的垂直视场角生成一系列不重叠的垂直航点。
在每个航点,无人机捕获RGB图像并由VLM分析,以推断可见楼层数量并更新当前估计位置。通过比较当前楼层和目标楼层,决定是否上升到下一个航点或进行微调以达到目标楼层高度。
目标探索
- 包括目标识别、视角选择和动作选择三个部分:
目标识别:使用目标识别VLM处理RGB图像,判断目标窗口是否可见,若可见则返回其边界框,并通过深度助手计算安全接近轨迹。
视角选择:若目标窗口不可见,则使用选择VLM和深度助手共同决定无人机的下一步动作。设计了一种基于深度的算法,通过计算每个视角的深度切片的平均值,寻找深度不连续性,选择最有希望的视角。
动作选择:在每个时间步,使用选择VLM根据深度助手计算的安全移动距离和任务描述,选择最优的移动方向和距离。
实验
VLD数据集
目的:为了支持无人机在终端配送场景中的视觉语言导航(VLN)研究,构建了VLD数据集。该数据集专注于模拟无人机从建筑外部接近特定窗口的任务,填补了现有VLN基准测试在空中配送领域的空白。
构建内容:
平台:基于CARLA 0.9.12模拟器构建,涵盖城市、住宅和农村环境。
任务数量:共设计了300个VLD任务,分布在22栋不同类型的建筑中。
目标对象:包括工具、容器、家居用品、食品、家具、海报、玩具和装饰品等。
- 任务分布:
建筑类型:低层住宅、高层建筑、小别墅和文化特色建筑。
目标楼层:从低层到高层不等。
任务难度:根据无人机完成任务所需的最小转弯次数,分为“简单”(少于2次转弯)、“中等”(2到3次转弯)和“困难”(超过3次转弯)三个级别。
用户请求:使用GPT-4o生成多样化的自然语言请求,并由人类专家审核优化。
特点:
多样化场景:涵盖多种建筑类型和目标对象。
任务难度分级:提供不同复杂度的实验环境。
语言多样性:模拟真实用户在不同情境下的语言表达。
用途:
系统评估:用于评估LogisticsVLN系统的性能,包括成功率(SR)、按路径长度加权的成功率(SPL)和平均步骤数等指标。
模型优化:帮助研究人员发现模型的不足之处,并针对性地进行优化。
评估指标和实施细节
采用成功完成任务的百分比(SR)和按路径长度加权的成功率(SPL)作为评估指标,同时增加平均步骤数作为评估指标,反映完成VLD任务所需的时间和内存占用。
在模拟器中使用四旋翼无人机模型,所有相机的分辨率为800×800像素,视场角为90°,安装在无人机下方以避免干扰感知。
实验结果
使用三种轻量级VLMs进行评估,Qwen2-VL-7B模型在成功率和路径长度加权成功率方面表现最佳,成功完成超过一半的任务。
分析发现,不同VLMs的性能差异主要来源于目标识别的准确性和楼层定位的可靠性。Yi-VL在楼层计数模块中频繁拒绝给出精确答案,而Llama-3.1在楼层定位准确性方面表现不如Qwen2-VL。
消融研究
楼层定位方法的影响:与直接计数方法相比,提出的楼层定位方法将楼层定位失败率从61.6%降低到27.9%,显著提高了楼层定位性能。
视角选择算法的影响:与随机选择和默认选择策略相比,提出的视角选择算法在成功率和路径长度加权成功率方面表现出色,证明了其有效性。
选择VLM的影响:在选择VLM的情况下,系统性能略有下降,但在视角选择次优时,选择VLM的作用更为关键,能够有效避免碰撞并继续安全探索。
结论与未来工作
本文提出了LogisticsVLN系统,这是一个可扩展的基于无人机的终端配送系统,利用基础模型的力量,无需针对特定任务的训练或预先构建的地图。
构建的VLD数据集涵盖了CARLA模拟器中的多样化建筑类型、配送目标和指令风格,为评估该领域提供了有力支持。
实验结果证明了所提系统的有效性,而子任务级别的分析为当前VLMs在VLD场景中的优势和局限性提供了宝贵的见解。
未来的工作将集中在优化系统架构,以更好地利用MLLMs的能力,并将LogisticsVLN扩展到现实世界的空中配送应用中。