今天为大家介绍一篇CVPR2025论文《DFormerv2: Geometry Self-Attention for RGBD Semantic Segmentation》。这篇论文聚焦在RGB-D图像语义分割任务中,如何更高效地利用深度信息。传统方法通常采用双分支网络分别处理RGB和Depth,再进行特征融合,计算量大且效率低。而DFormerv2提出了一个全新视角 —— 把深度图当作几何先验(geometry prior),直接引导注意力分配,而不是再用深度图去提特征。核心技术是 Geometry Self-Attention(GSA),它结合了深度距离和空间距离生成几何先验,然后通过一个衰减函数整合到注意力机制中,使模型更关注几何上相关的区域。同时,作者还设计了轴向分解(decomposed attention),沿横向和纵向分别计算注意力,极大地降低了计算量。最终,构建了轻量级但性能强劲的RGBD骨干网络 DFormerv2,在NYU Depth V2 和 SUNRGBD 等多个语义分割数据集上都达到了 SOTA 性能,甚至在保持更少参数和更低计算成本的同时,超过了 GeminiFusion、CMX 等方法。总结来说,这是一次将几何信息显式引入Transformer注意力机制的成功尝试,为RGBD语义分割任务提供了一种高效、结构感知的解决方案。