MapTrace:让AI读懂地图的几何与拓扑关系

Google Research 的最新研究成果 MapTrace 解决一个看似“人类直觉”的能力:读懂一张地图,并沿着可走的通道画出一条从起点到终点的可行路线。人看购物中心、动物园、主题乐园的平面图,几秒就能分清“墙/建筑边界”和“路/走廊”,并在脑中完成寻路;但很多多模态大模型(MLLM)虽然能识别“这是动物园、那里是爬行动物馆”,却常常把路线画穿建筑、穿过围栏或店铺,因为它们缺的不是“看见物体”,而是对几何与拓扑关系(连通性、不能穿墙、路径是相连点序列)的理解。上述问题的根本原因是数据缺口:现有训练数据里,大模型见过大量“路径/道路”的图像与文字,但很少有数据在像素级别明确教它“哪些区域可通行、哪些是不可通行、以及两点之间的合法连通路线应该长什么样”。要靠人工给真实地图逐条描路径,成本极高且难以规模化;而商场、博物馆、主题公园这类“最需要导航的复杂地图”往往还涉及版权和难以收集的问题。

MapTrace:提出新的任务、数据集和一条可扩展的合成数据生成流水线,专门用来“教会模型在地图上走路”。这套流水线生成的 200 万条问答对(起点-终点-路径标注)已在 HuggingFace 开源。生成过程中用到了 Gemini 2.5 ProImagen-4 等模型,社区能继续研究“地图路径追踪”这种细粒度空间推理能力。

流水线的思路很像“AI 既当制图师,也当质检员”,分四步自动完成:
1)先生成多样地图:用大语言模型先写出丰富的地图提示词(动物园、商场、奇幻主题公园等),再交给文生图模型渲染成地图图像。
2)找出可通行区域(Mask Critic):先按颜色把像素聚类,得到候选“道路掩膜”;再让另一个多模态模型当“掩膜质检员”,判断这些掩膜是否真的代表连通、合理的可走区域,过滤掉把背景/文字误当道路的情况。
3)把可走区域变成可计算的图结构:将道路掩膜转成“节点-边”的图(像道路网那样),让计算机能在上面做最短路和采样。
4)生成“完美路径”并再质检(Path Critic):在图上随机取起点终点,用经典的 Dijkstra 最短路算法算出路线,再让另一个多模态模型当“路径质检员”,检查这条路是否贴合地图、是否越界穿墙、是否像人会走的路线。

效果方面,研究从大数据集中抽取较小子集(例如 2.3 万条路径)去微调多个模型(包括开源 Gemma 3 27BGemini 2.5 Flash),再用由真实世界地图构成的 MapBench 来测试泛化能力。评估时用一种衡量“预测路径与参考路径相似度”的指标(NDTW,值越低越好),结果显示微调后整体显著变好;Gemini 2.5 Flash 的该指标从 1.29 降到 0.87,而且“能输出可解析有效路径”的成功率也普遍上升,说明不仅更准,也更不容易彻底失败。

“AI 质检员”的误差:Path Critic 人工抽查准确率约 76%(会有少量把坏路径判成好路径的误报),Mask Critic 抽查准确率约 83%;常见错误来自颜色相近导致把背景算成路、把文字并进道路、或漏掉很细的可走小路等。

结论:细粒度空间推理并不是多模态大模型“天生就会”的能力,而是可以通过专门、明确的监督(哪怕是合成数据)训练出来的技能。并展望了应用:更直观的导航(看地铁图/平面图给可视化路线)、更会看平面图的机器人与室内自主体(仓库/医院/机场按楼层图行走)、以及面向视障人群的逐步路径描述等。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注