Deep Patch Visual Odometry (DPVO)是来自普林斯顿大学的Zachary Teed、Lahav Lipson和Jia Deng的最新研究成果。DPVO 是一种单目视觉里程计(VO)系统,旨在通过跟踪图像块来实现高效、准确的位姿估计。相比传统方法依赖密集光流,这种方法通过稀疏块匹配显著降低了计算成本。
一、相关工作
视觉里程计(VO)和同时定位与地图构建(SLAM)系统是估计机器人位置和方向的核心技术。传统VO方法包括间接法(基于关键点)和直接法(基于像素强度)。近年来,深度学习方法在特征提取和优化方面表现出色,如DROID-SLAM,但其计算开销巨大。
二、方法
DPVO的核心是一个新颖的递归网络架构,用于稀疏块匹配和可微分的束调整(BA):
- 特征提取:
- 使用残差网络提取匹配特征和上下文特征。
- 从图像中随机采样位置生成图像块,并通过双线性插值从特征图中裁剪出块特征。
- 更新算子:
- 包含相关性计算、时间卷积、Softmax聚合、转换块、因子头和可微束调整层。
- 相关性计算通过内积评估图像块与帧之间的视觉对齐。
- 时间卷积利用帧间的相关性。
- Softmax聚合实现图像块间的全局信息传递。
- 因子头生成2D轨迹修正和置信度权重。
- 可微束调整通过优化目标函数更新深度和位姿。
- 训练与监督:
- 在TartanAir数据集上进行监督训练。
- 使用Umeyama对齐算法对轨迹进行比例缩放匹配。
- 通过光流监督,确保轨迹更新与地面真实光流之间的距离最小。
- VO系统逻辑:
- 初始化阶段使用前8帧,并进行12次更新迭代。
- 扩展阶段新增帧时,提取特征和图像块。
- 通过光流计算和固定位置优化,移除冗余帧。
三、实验
DPVO在多个基准数据集上进行了评估,包括TartanAir、TUM-RGBD、EuRoC和ICL-NUIM。结果显示,DPVO在平均误差、运行速度和内存使用上均优于现有方法。
四、结论
DPVO通过稀疏块匹配和递归网络实现了高效、准确的视觉里程计估计,显著提升了系统性能并降低了计算开销。
五、主要贡献
- 提出了一种稀疏块匹配的方法,显著提高了视觉里程计的效率和准确性。
- 设计了一个新颖的递归网络架构,包括相关性计算、时间卷积、Softmax聚合和可微束调整。
- 在多个基准数据集上,DPVO的性能超过了所有现有方法。
该论文详细描述了DPVO系统的设计、实现和实验评估,展示了其在单目视觉里程计中的优势和潜力。
P.S., 与此论文研究成果相关的代码或Demo: