摘要
本发明提供一种基于多模态大模型的地理定位方法、装置、设备及介质,涉及地理定位技术领域,该方法包括:将目标地理区域对应的目标图片输入多模态大模型,得到多模态大模型输出的目标图片对应的目标描述文本;多模态大模型用于基于目标图片生成目标描述文本;将目标描述文本输入文本嵌入模型,得到文本嵌入模型输出的目标描述文本对应的目标文本嵌入向量;将目标文本嵌入向量与预设向量库中的各文本嵌入向量进行匹配,确定目标地理区域对应的目标定位信息。本发明不依赖图像的局部特征点,因此也不会容易被动态环境影响,在复杂环境下能够稳定地进行定位,并且定位精度较高。相比同步定位与地图构建技术还能够通过匹配过程获得绝对位置信息。
技术关键词
全景图
文本
地理定位方法
多模态
立方体
置信度阈值
像素颜色值
坐标
大语言模型
笛卡尔
图片
非暂态计算机可读存储介质
地理定位装置
地理定位技术
定位模块
地图构建技术
像素点
贴图
标识
系统为您推荐了相关专利信息
多模态
大语言模型
可移植文档格式
实体
互联网医疗技术