摘要
本发明涉及一种基于多视角跨模态匹配的位置识别模型构建方法及系统,涉及计算机视觉和自然语言处理技术领域,针对的问题是:传统的视觉位置识别方法在复杂环境和多视角场景下难以保持高精度,且无法有效处理自然语言描述。为了解决这一问题,本发明通过多视角图像和自然语言文本描述的结合,采用文本编码和视觉编码分别对文本和图像进行特征提取;然后,使用聚类算法对图像特征进行聚类,并将每个位置的多视角图像特征拼接成全局图像特征;最后,通过计算文本特征与图像特征的相似度,进行位置匹配。通过结合视觉和文本信息,本发明解决了传统方法在复杂场景和视角变化下的鲁棒性和准确性差的问题,可广泛应用于无人系统导航领域。
技术关键词
模型构建方法
多视角
跨模态
视觉位置识别方法
局部视觉特征
图像特征编码
局部图像特征
学习方法
模型构建系统
自然语言文本
场景
聚类
处理器
计算机装置
图像嵌入
系统为您推荐了相关专利信息
视频字幕生成方法
语义注意力
视觉特征
跨模态
解码器
关键部位识别方法
知识图谱推理
视觉特征
融合特征
构建知识图谱
双模态影像
可见光相机
运动恢复结构
热红外相机
三维模型