MapTrace：让AI读懂地图的几何与拓扑关系

Google Research 的最新研究成果 MapTrace 解决一个看似“人类直觉”的能力：读懂一张地图，并沿着可走的通道画出一条从起点到终点的可行路线。人看购物中心、动物园、主题乐园的平面图，几秒就能分清“墙/建筑边界”和“路/走廊”，并在脑中完成寻路；但很多多模态大模型（MLLM）虽然能识别“这是动物园、那里是爬行动物馆”，却常常把路线画穿建筑、穿过围栏或店铺，因为它们缺的不是“看见物体”，而是对几何与拓扑关系（连通性、不能穿墙、路径是相连点序列）的理解。上述问题的根本原因是数据缺口：现有训练数据里，大模型见过大量“路径/道路”的图像与文字，但很少有数据在像素级别明确教它“哪些区域可通行、哪些是不可通行、以及两点之间的合法连通路线应该长什么样”。要靠人工给真实地图逐条描路径，成本极高且难以规模化；而商场、博物馆、主题公园这类“最需要导航的复杂地图”往往还涉及版权和难以收集的问题。

MapTrace：提出新的任务、数据集和一条可扩展的合成数据生成流水线，专门用来“教会模型在地图上走路”。这套流水线生成的 200 万条问答对（起点-终点-路径标注）已在 HuggingFace 开源。生成过程中用到了 Gemini 2.5 Pro 与 Imagen-4 等模型，社区能继续研究“地图路径追踪”这种细粒度空间推理能力。

流水线的思路很像“AI 既当制图师，也当质检员”，分四步自动完成：
1）先生成多样地图：用大语言模型先写出丰富的地图提示词（动物园、商场、奇幻主题公园等），再交给文生图模型渲染成地图图像。
2）找出可通行区域（Mask Critic）：先按颜色把像素聚类，得到候选“道路掩膜”；再让另一个多模态模型当“掩膜质检员”，判断这些掩膜是否真的代表连通、合理的可走区域，过滤掉把背景/文字误当道路的情况。
3）把可走区域变成可计算的图结构：将道路掩膜转成“节点-边”的图（像道路网那样），让计算机能在上面做最短路和采样。
4）生成“完美路径”并再质检（Path Critic）：在图上随机取起点终点，用经典的 Dijkstra 最短路算法算出路线，再让另一个多模态模型当“路径质检员”，检查这条路是否贴合地图、是否越界穿墙、是否像人会走的路线。

效果方面，研究从大数据集中抽取较小子集（例如 2.3 万条路径）去微调多个模型（包括开源 Gemma 3 27B 与 Gemini 2.5 Flash），再用由真实世界地图构成的 MapBench 来测试泛化能力。评估时用一种衡量“预测路径与参考路径相似度”的指标（NDTW，值越低越好），结果显示微调后整体显著变好；Gemini 2.5 Flash 的该指标从 1.29 降到 0.87，而且“能输出可解析有效路径”的成功率也普遍上升，说明不仅更准，也更不容易彻底失败。

“AI 质检员”的误差：Path Critic 人工抽查准确率约 76%（会有少量把坏路径判成好路径的误报），Mask Critic 抽查准确率约 83%；常见错误来自颜色相近导致把背景算成路、把文字并进道路、或漏掉很细的可走小路等。

结论：细粒度空间推理并不是多模态大模型“天生就会”的能力，而是可以通过专门、明确的监督（哪怕是合成数据）训练出来的技能。并展望了应用：更直观的导航（看地铁图/平面图给可视化路线）、更会看平面图的机器人与室内自主体（仓库/医院/机场按楼层图行走）、以及面向视障人群的逐步路径描述等。