摘要
本申请实施例提供了一种视觉定位方法和装置、电子设备及存储介质,属于人工智能技术领域,适用于金融科技场景和医疗科技场景。该方法包括:获取目标环境的多视图二维图像和三维点云特征;获取目标定位提示文本;其中,目标定位提示文本用于指示在目标环境中找到目标对象的位置;通过预设的目标定位推理模型对目标定位提示文本和多视图二维图像进行位置推理,得到初始定位推理数据;根据初始定位推理数据和三维点云特征进行视觉定位,得到目标定位特征;基于目标定位特征进行特征解码,得到目标位置信息;其中,目标位置信息用于指示目标对象在目标环境中的位置。本申请实施例能够提高视觉定位的准确性。
技术关键词
定位特征
点云特征
文本
视觉定位方法
场景特征
上下文特征
编码特征
数据
样本
图像
视觉定位模块
视觉定位装置
电子设备
对象
可读存储介质
人工智能技术
注意力
系统为您推荐了相关专利信息
智能检测方法
视觉特征
文本编码器
巡检图像
地理信息系统
数据标注方法
专业知识库
文本
计算机存储介质
数值