研究里程碑
LangSplat:三维语言高斯泼溅
以高斯为载体存储蒸馏后的语言特征并用泼溅渲染,相较基于 NeRF 的体积积分显著加速开放词汇三维定位。
作者 / 团队
Minghan Qin · 研究员
年份
2024
深入解读
工作面向三维开放词汇查询:将 CLIP 等模型的语言信号编码到每个三维高斯上,通过类似 RGB 泼溅的瓦片渲染聚合语言特征。为降低显式存储开销,先训练场景级语言自编码再在潜空间学习特征,并借助 SAM 等信号学习层次语义以得到更清晰物体边界。论文报告相对 LERF 等方法在速度与精度上的提升。
我们能从中学到什么
- 01
显式基元上的特征泼溅可把语言场推理成本降到与 RGB 泼溅同量级。
- 02
场景专用潜空间与分割先验可缓解 CLIP 特征模糊边界问题。
原文摘录
"Humans live in a 3D world and commonly use natural language to interact with a 3D scene."— source ↗
标签
论文语义优化实时
相关链接
信息来源