研究背景
跨视角对象级地理定位(CVOGL)旨在卫星影像上精确定位地面街景或无人机影像所观测目标的地理位置。现有方法多聚焦于图像级匹配,缺乏对特定目标的位置编码研究,且查询目标在卫星图像中的像素占比极低,精确定位困难。
核心挑战
跨视角特征差异与目标精确定位困难
创新方案
GHGeo高斯核函数与异构空间对比损失
核心指标
67.73%
无人机-卫星定位精度
48.41%
街景-卫星定位精度
5.76%
相比基准方法提升
GHGeo方法架构设计
高斯核位置编码
精确位置建模
通过高斯核函数对查询目标进行精确位置编码,实现对目标中心点及其分布特征的精细化建模
空间概率分布
生成空间概率分布图,通过对感兴趣目标位置进行先验激活,使模型显式聚焦于目标区域
可学习参数
引入可学习的高斯核函数参数,动态调整感知范围,适应不同尺度的目标定位需求
动态注意力融合
多源异构融合
融合多源异构视角影像输入,对每个输入通道使用独立卷积核,捕捉独特的几何模态
空间相似性加权
动态加权交叉感知全局上下文与局部几何特征的空间相似性,提升特征判别性表达
概率密度预测
以概率密度预测查询目标在卫星影像中的精确位置,实现亚像素级定位精度
三大核心技术创新
高斯核编码
精确位置建模
可学习高斯核函数
空间概率分布生成
目标中心点精细建模
动态融合模块
注意力精细化
多源异构视角融合
独立卷积核处理
空间相似性动态加权
异构对比损失
跨视角优化
异构空间对比学习
跨视角特征差异缓解
训练过程约束优化
跨视角对象级定位任务
CVGL vs CVOGL
CVGL图像级定位
实现图像级跨视角匹配
在大规模卫星图像库中检索
完成查询图像到参考图像关联
CVOGL对象级定位
聚焦于对象级精确定位
预测感兴趣目标精确坐标
生成目标边界框位置信息
技术挑战
视角差异问题
街景/无人机视角与卫星俯视视角存在显著差异,传统匹配算法性能受限
目标尺度问题
查询目标在卫星图像中像素占比极低,精确定位面临巨大挑战
特征对齐困难
需要同时理解场景整体一致性和捕捉目标局部几何特征
CVOGL数据集实验结果
无人机-卫星任务
IoU ≥ 25%
67.73%
相比DetGeo基准方法提升5.76%
IoU ≥ 50%
63.00%
相比DetGeo基准方法提升5.34%
性能优势
在无人机视角定位任务中表现出色,显著超越现有基准方法
街景-卫星任务
IoU ≥ 25%
48.41%
相比DetGeo基准方法提升2.98%
IoU ≥ 50%
45.43%
相比DetGeo基准方法提升3.19%
对比优势
相比TransGeo方法表现更优
超越SAFA方法定位精度
优于VAGeo方法整体性能
综合性能评估
定位精度提升
显著超越现有基准方法
跨视角适应
有效处理视角差异问题
鲁棒性增强
多场景下稳定表现