摘要
本发明涉及地理定位技术领域,特别涉及一种基于跨模态对比学习和描述增强的街景图像地理定位方法及系统,利用预训练的图像编码器获取待查询街景图像视觉特征和参考图像图库特征集,利用大语言模型生成待查询街景图像的文本描述特征,并将视觉特征和文本描述特征进行融合生成待查询街景图像的查询特征集;基于查询特征集和图库特征集将待查询街景图像与参考图像对齐,以获取待查询街景图像的地理位置;其中,图像编码器在训练过程中基于街景图像样本集和参考图像样本集并使用预设跨模态对比学习损失函数对图像编码器进行训练。本发明能够解决非全景图像定位问题,提高定位过程的准确性和灵活性,在地理定位领域具有较好的应用前景。
技术关键词
图像地理定位方法
街景
图像编码器
跨模态
查询特征
样本
图像视觉特征
图像地理定位系统
文本
地理定位技术
对齐模块
图像增强
数据
多层感知器
可读存储介质
大语言模型
图像压缩
定位问题
系统为您推荐了相关专利信息
多模态特征融合
威胁检测方法
加密
统计特征
帝企鹅
动态时间规整算法
语义
动态规划算法
跨模态
注意力
多模态数据库
金属材料
特征提取网络
成分含量
深度学习网络
图像处理模型
图像处理方法
多任务
多模态
模态特征