摘要
本申请公开了一种单目三维视觉定位方法、装置、设备及存储介质,涉及计算机视觉与自然语言处理技术领域,该方法包括:基于待定位目标的描述文本与场景图像,提取出文本特征、视觉特征以及深度特征;对所述文本特征、所述视觉特征以及所述深度特征进行耦合,得到多模态耦合特征;对所述多模态耦合特征进行解码,得到多模态解码特征;基于所述多模态解码特征,确定所述待定位目标的三维视觉定位结果。通过上述方式,实现了视觉特征、文本特征、深度特征之间的跨模态深度耦合,提升不同模态特征的表达能力,提升空间位置信息与高级语义信息的感知能力,能够定位出与文本描述最相关的视觉目标,提高三维目标定位的精度。
技术关键词
耦合特征
视觉特征
三维视觉定位方法
文本
场景
图像
注意力
视觉定位装置
解码模块
掩码规则
跨模态
多模态特征
关系
特征提取模块
标识符
计算机视觉
系统为您推荐了相关专利信息
情感识别方法
情感识别技术
大规模语料
自然语言
浏览器插件
城市交通出行
综合评价指标体系
文本
评价方法
情感类别