图形学、人机交互、VR/AR领域文献速读【持续更新中...】

发布于:2025-05-12 ⋅ 阅读:(18) ⋅ 点赞:(0)

(1)笔者在时间有限的情况下,想要多积累一些自身课题之外的新文献、新知识,所以开了这一篇文章。
(2)想通过将文献喂给大模型,并向大模型提问的方式来快速理解文献的重要信息(如基础idea、contribution、大致方法等)。
(3)计划周更4-5篇文献。
(4)文章内容大多由AI产生,经笔者梳理而成。如果有误,敬请批评指正。


一、Hier-SLAM: Scaling-up Semantics in SLAM with a Hierarchically Categorical Gaussian Splatting

在这里插入图片描述

作者:Boying Li, Zhixi Cai, Yuan-Fang Li, Ian Reid, and Hamid Rezatofighi
机构:Monash & MBZUAI
原文链接:https://arxiv.org/abs/2409.12518
代码链接:https://github.com/LeeBY68/Hier-SLAM
发表:ICRA 2025

摘要:
本文提出了 Hier-SLAM,这是一种基于语义的三维高斯溅射 SLAM 方法,具备全新的层级类别表示方式,能够实现精准的全局三维语义建图、良好的扩展性,以及三维世界中显式的语义标签预测。随着环境复杂度的增加,语义 SLAM 系统的参数量急剧上升,使得场景理解变得尤为困难且成本高昂。

为了解决这一问题,本文引入了一种紧凑的层级语义表示,将语义信息有效嵌入到 3D Gaussian Splatting 中,并借助大语言模型(LLM)的能力构建结构化语义编码。此外,本文设计了一种新的语义损失函数,通过层内(inter-level)和跨层(cross-level)联合优化,进一步提升层级语义信息的学习效果。本文还对整个 SLAM 系统进行了全面优化,显著提升了追踪建图性能及运行速度。

Hier-SLAM 在建图和定位精度方面均超越现有的稠密 SLAM 方法,并在运行速度上实现了 2 倍加速。同时,在语义渲染性能上也达到了与现有方法相当的水平,同时在存储开销与训练时间方面大幅下降。令人印象深刻的是,该系统的渲染速度可达每秒 2000 帧(含语义)或 3000 帧(无语义)。尤其重要的是,Hier-SLAM 首次展现了在超过 500 类语义场景中仍能高效运行的能力,充分体现了其强大的扩展性。

1. 什么是语义SLAM系统呢?
语义SLAM(Semantic SLAM)是同时定位与建图(SLAM)技术的升级版,它不仅构建环境的几何地图,还能识别并标注地图中物体的语义信息(如“椅子”“墙壁”“行人”),让机器真正“理解”周围场景。

2. 本文是如何实现层级语义表示与3D高斯泼溅的融合的?
(1)层级树结构构建
(i)语义树定义:将语义类别组织为树状结构 G=(V,E),其中节点 V 表示不同层级的语义类(如“背景→结构→平面→墙”),边 E 表示类别的从属关系。
(ii)LLM辅助生成:

  • 输入一组语义标签(如ScanNet的550类),利用LLM(如GPT-4)自底向上迭代聚类,生成层次结构。
  • 通过循环校验机制(Loop-based Critic)修正LLM输出:对比LLM生成的聚类结果与输入标签,剔除无关类别(Unseen
    Classes)并补全遗漏节点(Omitted Nodes),直至所有标签被正确归类。

(2)紧凑编码设计
每个3D高斯 primitive 的语义嵌入 h 由各层级嵌入h’拼接而成。
在这里插入图片描述

(3)语义优化策略

  • 层级内损失(Inter-level Loss):每层单独计算交叉熵损失,确保层级内分类正确性。
  • 跨层级损失(Cross-level Loss):通过共享线性层 F 将层级编码映射为扁平概率分布,与真实标签计算全局交叉熵损失,保证层级间一致性。

通俗易懂的解释:
这篇文章的“语义压缩”方法,可以类比为整理一个杂乱的文件柜:

步骤1:用AI给文件分类(LLM建树)
把一堆未分类的文件(如550种物体标签)交给AI(如ChatGPT),让它按“大类→子类”自动整理。例如:第一层:“家具” vs “电器” 第二层:“家具”下分“椅子”“桌子”……
AI可能分错,所以加了自动修正程序:检查遗漏的标签(如“漏了台灯”),重新让AI补分,直到所有文件归位。

步骤2:给每个物体贴层级标签(紧凑编码)
以前:每个物体直接标记具体名称(如“办公椅”),需要大量标签。
现在:改为层级路径编码(如“家具/椅子/办公椅”),只需记录每层的选择(如1-2-3),大幅节省空间。

步骤3:双重检查(层级优化)
逐层检查:确保“椅子”确实属于“家具”。
整体检查:最终生成的标签(如“办公椅”)要与真实名称一致。

效果:
原本存1000种物体需要1000个标签,现在只需20个数字编码(类似压缩成文件夹路径)。
机器人看到“办公椅”时,既能知道它是“椅子”,也能明白它属于“家具”,适合高层决策(如“避开所有家具”)。

3.本文的核心贡献是什么?
(1)层次化语义表示提出一种树状层次结构编码语义信息利用大语言模型(LLM)生成语义类别的层次关系(如“背景→结构→平面→墙”),将语义信息压缩为紧凑的符号编码。例如,10层二叉树可覆盖1024个类别,仅需20维编码(每层2维Softmax)。通过几何与语义属性联合优化,构建多级树结构,显著减少存储需求(相比扁平表示降低66%)。

(2)层次化语义损失函数:设计跨层级(Cross-level)和层级内(Inter-level)联合优化损失,结合交叉熵损失,实现从粗到细的语义理解。

(3)高效SLAM系统:在3D高斯泼溅框架中集成层次化语义表示,优化跟踪(Tracking)与建图(Mapping)模块。系统在保持高精度(ScanNet数据集上ATE RMSE为3.2cm)的同时,实现2000 FPS(带语义)/3000 FPS(无语义)的实时渲染速度,存储需求降低至910.5MB(原需2.7GB)。

(4)扩展性验证:在包含550个语义类别的ScanNet数据集中,通过LLM辅助的层次化编码将语义参数压缩7倍,首次实现复杂场景的高效语义理解。

二、DreamSpace: Dreaming Your Room Space with Text-Driven Panoramic Texture Propagation

在这里插入图片描述

作者:Bangbang Yang, Wenqi Dong, Lin Ma, Wenbo Hu, Xiao Liu, Zhaopeng Cui, Yuewen Ma
机构:(1)PICO, ByteDance (2)State Key Lab of CAD&CG, Zhejiang University
文章链接:https://arxiv.org/abs/2310.13119
项目链接:https://ybbbbt.com/publication/dreamspace/
发表:IEEE VR 2024

摘要:
基于扩散模型的方法在二维媒体生成领域已取得显著成功,然而在三维空间应用(如XR/VR)中实现同等水平的场景级网格纹理生成仍面临挑战,主要受限于三维几何结构的复杂性及沉浸式自由视角渲染的技术要求。本文提出了一种创新的室内场景纹理生成框架,通过文本驱动生成具有精细细节与真实空间一致性的纹理。其核心思想是:首先从场景中心视角生成风格化的360°全景纹理,继而通过修复与模仿技术将其扩散至其他区域。为确保纹理与场景的语义对齐,我们开发了一种新颖的双重纹理对齐机制,采用由粗到细的全景纹理生成方法,同时考量场景的几何特征与纹理线索。针对纹理传播过程中的复杂几何干扰,我们设计了分离式处理策略:先在置信区域执行纹理修复,再通过隐式模仿网络合成被遮挡区域与微细结构的纹理。大量实验及真实室内场景的沉浸式VR应用证明,该方法能生成高质量纹理,并为VR头显设备提供引人入胜的体验。

1. 文章简介
本文《DreamSpace: Dreaming Your Room Space with Text-Driven Panoramic Texture Propagation》提出了一种创新的文本驱动室内场景纹理生成框架,旨在解决三维空间应用中场景级网格纹理合成的关键挑战。针对现有扩散模型在2D媒体生成的成功难以迁移到3D场景的问题,作者提出以下技术贡献:

(1)全景纹理生成:采用自上而下的流程,首先生成中心视点的360°风格化全景纹理,通过改进的潜在扩散模型(LDM)实现粗到细的生成策略,结合非对称环形填充和分块扩散技术保障高分辨率与无缝投影。

(2)双重纹理对齐:提出风格优先与对齐优先的双通道纹理生成机制,通过深度边缘感知的泊松混合解决几何-纹理错位问题,在保持风格质量的同时提升几何一致性。

(3)全场景纹理传播:设计分区域处理策略,对可见区域采用置信扩散修复,对遮挡/微小结构区域采用基于坐标的隐式纹理模仿网络(MLP),实现纹理的空间连贯性填充。

实验表明,该方法在真实场景数据集(DreamSpot/Replica)上显著优于StyleMesh、TEXTure等方法(CLIP分数提升14.4%,美学评分提升9.6%),并通过VR应用验证了其在头显设备中的沉浸式体验。局限性包括对PBR材质支持不足及超大场景适配性问题。


通俗易懂版介绍
这篇文章开发了一个叫DreamSpace的"AI装修神器",能用文字描述自动给3D房间模型换上梦幻风格的墙纸、地板和家具贴图。比如输入"星空主题",系统就会把房间变成银河效果,沙发、电视等物品还能保持原有形状但变成星空纹理。

核心技术有三招
(1)全景照片生成:先站在房间中心,用AI生成一张包裹整个房间的360°全景风格图(类似手机全景拍照,但内容是AI画的星空/森林等主题)。
(2)智能对齐:通过"双保险"策略让贴图完美贴合家具边缘,避免出现扭曲或错位。
(3)死角填充:对于柜子缝隙、沙发底部等死角,AI会参考已生成部分智能补全,而不是简单复制。

实际效果:
(1)比传统方法贴图更精准,VR眼镜中观看时不会出现接缝或穿帮。
(2)支持实时渲染,生成的3D房间能直接导入VR设备漫游。
(3)目前局限是不能做金属反光等复杂材质,超大教堂类场景也暂不支持。

2. 介绍一下这篇文章中的framework
DreamSpace 是一个基于扩散模型(Diffusion Model)的 文本驱动室内场景纹理生成框架,旨在为 3D 场景网格(Mesh)生成高质量、语义一致且空间连贯的纹理。其核心流程分为三个阶段:

(1)全景纹理生成(Panoramic Texture Generation)

  • 输入:用户文本描述(如“星空主题”)+ 真实场景的 3D 网格(带初始纹理和几何)。
  • 方法:
    粗到细生成:先用低分辨率全景扩散模型生成基础结构,再通过超分辨率提升细节。
    双重纹理对齐(Dual Texture Alignment):生成“风格优先”和“对齐优先”两种纹理,并用深度边缘感知的泊松混合(Poisson Blending)优化几何贴合。
  • 输出:高分辨率 360° 全景纹理(Equirectangular 投影)。

(2)初始纹理投影(Initial Texture Projection)

  • 将全景纹理通过 UV 映射 投影到 3D 网格的可见部分,形成初步风格化场景。

(3)全场景纹理传播(Holistic Texture Propagation)

  • 置信区域修复(Confidential Inpainting):在少量新视角下,用扩散模型修复未被初始全景覆盖的可见区域。
  • 隐式纹理模仿(Implicit Texture Imitating):对遮挡区域(如家具底部、墙壁缝隙),训练一个 MLP 网络 从已风格化区域学习颜色映射,预测合理纹理。
  • 最终输出:完整 UV 纹理贴图,可直接用于 3D 引擎(如 Unity/Unreal)或 VR 设备。

在这里插入图片描述
给定一个重建的真实场景和用户的文本描述,我们首先在中心视点生成高分辨率且几何对齐的全景纹理。随后,通过整体纹理传播技术将纹理扩展至其余区域——其中,置信纹理修复负责填充大范围的可信区域,而隐式纹理模仿则预测细小区域的色彩。最终生成的场景网格附带有烘焙后的风格化UV纹理,可直接上传至头戴显示设备(HMD),用于沉浸式VR漫游体验。

在这里插入图片描述

3. 文章是如何实现双重纹理对齐的
(1)双通道纹理生成
风格优先纹理(Style-first Panorama):使用全景扩散模型(LDM)生成高视觉质量的纹理,但几何贴合较弱。(“好看但可能歪的图”:AI自由发挥,保证星空效果炫酷,但可能没对准家具边缘。)
对齐优先纹理(Align-first Panorama):基于真实场景纹理,通过Canny边缘控制强制几何对齐,但风格质量较低。(对齐但略丑的图":AI严格按真实家具轮廓生成,风格较单调。)

(2)深度感知混合

  • 从全景深度图提取深度边缘(如家具轮廓),生成混合掩膜。(AI先用深度图找到桌子/沙发的边缘线(像描边工具))
  • 通过泊松图像编辑将对齐优先纹理融合到风格优先纹理中。
    边缘区域:优先使用对齐优先纹理(保证几何贴合)(在边缘线附近,用"对齐图"修正位置(确保纹理不穿帮)。)
    平坦区域:保留风格优先纹理(维持视觉质量)(其他区域保留"好看图"的绚丽效果。)

4.文章是如何“先用低分辨率全景扩散模型生成基础结构,再通过超分辨率提升细节”的?
(1)低分辨率基础结构生成

  • 输入条件:文本提示(如“星空主题”);场景中心视点的低分辨率(如512×1024)全景深度图与边缘图。
  • 模型:基于Latent Diffusion Model (LDM)的全景扩散模型,通过以下改进实现结构一致性:
    水平环形填充(Horizontal Circular Padding):替换UNet的常规卷积,强制左右边界连续。
    多条件控制:联合调节深度、边缘和文本嵌入
  • 输出:低分辨率(如1024×2048)全景纹理,保留场景宏观布局(如墙壁/家具位置),但缺乏细节。

(2)超分辨率细节增强

  • 方法
    分块扩散上采样(Tiled Diffusion):将低分辨率全景图分块输入通用LDM,通过扩散过程逐步提升分辨率(如3倍至3072×6144)。
    极区修复(Polar Inpainting):将全景图上下极区转换为透视投影,修复扭曲的顶/底部分(如天花板/地板)。水平滚动图像,修复左右边界接缝。
  • 输出:高分辨率无缝全景图,细节丰富(如家具木纹、星空的光点),符合等距柱状投影(Equirectangular Projection)要求。

在这里插入图片描述


网站公告

今日签到

点亮在社区的每一天
去签到