Deep Patch Visual Odometry (DPVO)

Deep Patch Visual Odometry (DPVO)是来自普林斯顿大学的Zachary Teed、Lahav Lipson和Jia Deng的最新研究成果。DPVO 是一种单目视觉里程计(VO)系统,旨在通过跟踪图像块来实现高效、准确的位姿估计。相比传统方法依赖密集光流,这种方法通过稀疏块匹配显著降低了计算成本。

一、相关工作

视觉里程计(VO)和同时定位与地图构建(SLAM)系统是估计机器人位置和方向的核心技术。传统VO方法包括间接法(基于关键点)和直接法(基于像素强度)。近年来,深度学习方法在特征提取和优化方面表现出色,如DROID-SLAM,但其计算开销巨大。

二、方法

DPVO的核心是一个新颖的递归网络架构,用于稀疏块匹配和可微分的束调整(BA):

  1. 特征提取
    • 使用残差网络提取匹配特征和上下文特征。
    • 从图像中随机采样位置生成图像块,并通过双线性插值从特征图中裁剪出块特征。
  2. 更新算子
    • 包含相关性计算、时间卷积、Softmax聚合、转换块、因子头和可微束调整层。
    • 相关性计算通过内积评估图像块与帧之间的视觉对齐。
    • 时间卷积利用帧间的相关性。
    • Softmax聚合实现图像块间的全局信息传递。
    • 因子头生成2D轨迹修正和置信度权重。
    • 可微束调整通过优化目标函数更新深度和位姿。
  3. 训练与监督
    • 在TartanAir数据集上进行监督训练。
    • 使用Umeyama对齐算法对轨迹进行比例缩放匹配。
    • 通过光流监督,确保轨迹更新与地面真实光流之间的距离最小。
  4. VO系统逻辑
    • 初始化阶段使用前8帧,并进行12次更新迭代。
    • 扩展阶段新增帧时,提取特征和图像块。
    • 通过光流计算和固定位置优化,移除冗余帧。

三、实验

DPVO在多个基准数据集上进行了评估,包括TartanAir、TUM-RGBD、EuRoC和ICL-NUIM。结果显示,DPVO在平均误差、运行速度和内存使用上均优于现有方法。

四、结论

DPVO通过稀疏块匹配和递归网络实现了高效、准确的视觉里程计估计,显著提升了系统性能并降低了计算开销。

五、主要贡献

  1. 提出了一种稀疏块匹配的方法,显著提高了视觉里程计的效率和准确性。
  2. 设计了一个新颖的递归网络架构,包括相关性计算、时间卷积、Softmax聚合和可微束调整。
  3. 在多个基准数据集上,DPVO的性能超过了所有现有方法。

该论文详细描述了DPVO系统的设计、实现和实验评估,展示了其在单目视觉里程计中的优势和潜力。

Deep Patch Visual Odometry (DPVO)
By Zachary Teed, Lahav Lipson, Jia Deng

P.S., 与此论文研究成果相关的代码或Demo:

  1. DPVO on GitHub
  2. MiniDPVO demo on Huggingface,基于rerun实现;Source code mini-dpvo on GitHub

发表评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注