论文Geometry Aware Operator Transformer As An Efficient And Accurate Neural Surrogate For PDEs On Arbitrary Domains提出了一种新的神经算子(neural operator)架构:GAOT(Geometry Aware Operator Transformer)。GAOT将新颖的多尺度注意力图神经算子编码器与解码器、几何嵌入模块以及视觉Transformer处理器相结合,能够将有关域和输入的信息准确地映射为PDE解的稳健近似。在GAOT的实现中还引入了多项创新,以确保其计算效率与可扩展性。在多个来源多样的PDE学习任务上对GAOT进行了广泛测试,结果显示其在精度和效率方面相比多个基准模型均有显著提升,并在一个大规模三维工业计算流体力学(CFD)数据集上达到了当前最优性能。
论文作者为Shizheng Wen, Arsh Kumbhat, Levi Lingsch, Sepehr Mousavi, Yizhou Zhao, Praveen Chandrashekar, Siddhartha Mishra,来自ETH Zurich Switzerland, CMU USA和TIFR, India。
一、研究背景与问题定义
偏微分方程(PDE)是模拟自然现象与工程问题的基础工具。然而,在具有复杂几何边界的实际工业场景中,传统的数值解法(如有限元/差分法)在处理多次查询问题(如不确定性量化、控制、反问题)时计算成本极高。为了提升计算效率,近年来涌现出大量“神经算子”方法,试图用深度学习构造PDE解算器的近似替代。
已有的神经算子如FNO、DeepONet等多基于规则网格构建,难以处理任意几何域上的点云数据。因此,本研究致力于设计一种能同时具备高精度与高效率的神经算子,在任意几何域上近似PDE解算器。
二、核心贡献与模型概述
GAOT(Geometry Aware Operator Transformer)模型的特点如下:
- 针对任意几何结构设计,输入为无结构点云,输出为任意查询点的PDE解;
- 在保持Transformer处理效率的基础上,引入多尺度图神经模块MAGNO增强空间感知能力;
- 融合局部几何统计信息形成“几何嵌入”,提升模型对复杂域形状的理解;
- 支持时间相关PDE与大规模工业级三维任务(如DrivAerNet++);
- 在24个数据集上取得SOTA表现,并显著提升计算效率与泛化能力。
三、方法设计与技术细节
- 问题形式化
- 时间无关PDE形式:D(c, u) = f,目标是学习从输入a=(c,f,ub,χD)到解u的算子S;
- 时间相关PDE形式:ut+D(c,u)=0,目标是学习解算子序列 St(a)。
- 总体架构:典型的编码器-处理器-解码器结构(encode-process-decode):
- 编码器:输入原始点云,将其映射到潜空间的结构化点云;
- 处理器:Transformer(ViT)对潜空间Token进行处理;
- 解码器:将潜空间特征映射回原始点云任意查询点,输出PDE解。
- 编码器:多尺度注意力图神经算子(MAGNO)
- 相比传统GNO仅聚合单一尺度邻域信息,MAGNO引入多个尺度(如半径为r, 2r, 4r等),捕捉局部与全局特征;
- 每个尺度通过注意力机制进行加权积分(Attentional Quadrature),更精细控制局部特征重要性;
- 所有尺度特征通过softmax加权融合得到最终Token表示。
- 几何嵌入(Geometry Embedding)
- 使用局部统计量构建几何信息向量(邻点数、平均距离、距离方差、主方向等),
- 经过归一化后作为几何描述输入MLP,得到几何感知向量,并与GNO输出拼接,提供显式几何先验。
- 处理器:基于ViT的Transformer
- 若潜空间为规则网格,则可使用图像Patch划分方式构建Token;
- 采用多头注意力、RMS归一化和旋转位置编码(RoPE)提高效率和稳定性;
- 支持跳跃连接,以增强特征传递能力。
- 解码器:对称MAGNO结构
- 给定任意查询点x,从潜空间Token中构建多个尺度邻域,计算AGNO输出;
- 融合几何嵌入后预测x处的解值u(x)。
- 时间相关PDE扩展
- 将当前时刻t与前进步长τ加入输入;
- 通过可配置策略(如直接预测、残差预测、时间导数)实现不同的时间推进方案;
- 支持all2all策略,从轨迹数据中学习任意时刻解算子。
- 高效实现策略
- 预处理图结构,减少训练时图构建开销;
- 编码器与解码器使用序列处理节省显存,处理器仍批量并行;
- 边缘丢弃(Edge Dropping)缓解内存瓶颈,支持更大图。
四、实验评估与性能表现
- 数据集:
- 时间无关任务:Poisson方程、弹性方程、空气动力学流动等;
- 时间相关任务:Euler方程、Navier-Stokes方程、波动方程;
- 特别包括三维工业级DrivAerNet++数据集(8K车辆形状 × 每形状50万点)。
- 精度与鲁棒性:
- GAOT在24个数据集中有14个为最优或次优;
- 在时间无关任务上比第二优模型RIGNO-18提升约50%精度;
- 鲁棒性指标显示GAOT在不同数据集表现稳定,不易退化。
- 计算效率:
- GAOT训练吞吐率为97.5 samples/s,推理延迟6.97ms,分别比第二优模型高出50%与15%;
- 在输入规模与模型规模增长的情形下仍能保持良好扩展性,显著优于Transolver、RIGNO等。
- 三维任务表现(DrivAerNet++):
- 在压力与剪切应力预测上均显著优于TripNet、FIGConvNet等当前领先模型;
- 其Neural Field版本可在仅使用10%输入点时,通过查询机制恢复全点解,精度可与全监督模型媲美。
- 迁移学习能力:
- 在车体扰流场任务上,零样本外推性能良好;
- 使用少量目标任务数据微调后,精度提升达一个数量级。
五、消融实验与设计合理性验证
通过广泛的消融实验,作者验证了GAOT中各关键模块的重要性:
- MAGNO显著优于传统GNN编码器;
- 使用规则网格潜空间优于随机下采样与低维投影;
- 时间导数式推进策略优于直接预测;
- 几何嵌入优于无几何信息或PointNet方式;
- 多尺度GNO优于单尺度GNO(如GINO架构)。
六、总结与未来展望
GAOT作为一种面向任意几何域的神经算子,兼具高精度、高效率与良好泛化能力,在复杂PDE问题求解中具备强大潜力。其核心优势在于:
- 多尺度注意力图神经结构增强空间建模能力;
- 几何嵌入提高形状感知;
- Transformer处理模块带来高效计算;
- 支持Neural Field与Few-shot场景,展现极强灵活性。
未来工作可拓展方向包括:
- 引入物理约束损失,构建物理感知神经算子;
- 结合不确定性建模、反问题求解与PDE优化;
- 理论层面探索其逼近能力与泛化性质。
GAOT on GitHub: https://github.com/camlab-ethz/GAOT