摘要
本发明提供一种基于多模态大模型的图像地理定位方法、装置及设备,涉及人工智能技术领域,包括:获取训练数据集,训练数据集包括多张图像;对于每一图像,对图像的GPS坐标特征进行等地球投影的GPS坐标表征以及基于随机傅里叶特征进行编码,得到图像的GPS坐标特征向量;对于每一图像,对图像进行图文协同编码,得到图像的图像特征和文本特征融合生成的协同编码特征向量;将GPS坐标特征向量和协同编码特征向量输入大模型,基于GPS坐标特征向量的嵌入和协同编码特征的嵌入相似性,对大模型进行多模态对比训练,得到训练好的大模型,将待定位图像输入训练好的大模型,输出待定位图像的经度坐标值和纬度坐标值。
技术关键词
图像地理定位方法
坐标
编码特征
多模态
文本特征向量
图像特征向量
前馈神经网络
分层特征
地理定位装置
图像特征编码
随机噪声
编码模块
图文
数据
文本编码器
人工智能技术
图像编码
系统为您推荐了相关专利信息
深度强化学习模型
异常检测方法
时间序列特征
污染物排放量
交互特征
智能客服机器人
多模态数据融合
知识图谱查询
大语言模型
非暂态计算机可读存储介质