Deep Patch Visual Odometry (DPVO)

Deep Patch Visual Odometry (DPVO)是来自普林斯顿大学的Zachary Teed、Lahav Lipson和Jia Deng的最新研究成果。DPVO 是一种单目视觉里程计（VO）系统，旨在通过跟踪图像块来实现高效、准确的位姿估计。相比传统方法依赖密集光流，这种方法通过稀疏块匹配显著降低了计算成本。

一、相关工作

视觉里程计（VO）和同时定位与地图构建（SLAM）系统是估计机器人位置和方向的核心技术。传统VO方法包括间接法（基于关键点）和直接法（基于像素强度）。近年来，深度学习方法在特征提取和优化方面表现出色，如DROID-SLAM，但其计算开销巨大。

二、方法

DPVO的核心是一个新颖的递归网络架构，用于稀疏块匹配和可微分的束调整（BA）：

特征提取：
- 使用残差网络提取匹配特征和上下文特征。
- 从图像中随机采样位置生成图像块，并通过双线性插值从特征图中裁剪出块特征。
更新算子：
- 包含相关性计算、时间卷积、Softmax聚合、转换块、因子头和可微束调整层。
- 相关性计算通过内积评估图像块与帧之间的视觉对齐。
- 时间卷积利用帧间的相关性。
- Softmax聚合实现图像块间的全局信息传递。
- 因子头生成2D轨迹修正和置信度权重。
- 可微束调整通过优化目标函数更新深度和位姿。
训练与监督：
- 在TartanAir数据集上进行监督训练。
- 使用Umeyama对齐算法对轨迹进行比例缩放匹配。
- 通过光流监督，确保轨迹更新与地面真实光流之间的距离最小。
VO系统逻辑：
- 初始化阶段使用前8帧，并进行12次更新迭代。
- 扩展阶段新增帧时，提取特征和图像块。
- 通过光流计算和固定位置优化，移除冗余帧。

三、实验

DPVO在多个基准数据集上进行了评估，包括TartanAir、TUM-RGBD、EuRoC和ICL-NUIM。结果显示，DPVO在平均误差、运行速度和内存使用上均优于现有方法。

四、结论

DPVO通过稀疏块匹配和递归网络实现了高效、准确的视觉里程计估计，显著提升了系统性能并降低了计算开销。

五、主要贡献

提出了一种稀疏块匹配的方法，显著提高了视觉里程计的效率和准确性。
设计了一个新颖的递归网络架构，包括相关性计算、时间卷积、Softmax聚合和可微束调整。
在多个基准数据集上，DPVO的性能超过了所有现有方法。

该论文详细描述了DPVO系统的设计、实现和实验评估，展示了其在单目视觉里程计中的优势和潜力。

Deep Patch Visual Odometry (DPVO)
By Zachary Teed, Lahav Lipson, Jia Deng

P.S., 与此论文研究成果相关的代码或Demo：

DPVO on GitHub
MiniDPVO demo on Huggingface，基于rerun实现；Source code mini-dpvo on GitHub

一、相关工作

二、方法

三、实验

四、结论

五、主要贡献

相关文章：

发表评论 取消回复

发表评论取消回复