摘要
本申请涉及视觉定位技术领域,公开了一种基于意图识别的结构化视觉定位方法、系统及设备,包括:获取待定位图像和用户的当前语音指令;将所述当前语音指令输入预先训练好的意图识别模型进行语义结构化处理,以构建语义拓扑图;其中,所述语义拓扑图用于描述所述当前语音指令对应的目标结构化数据;基于所述语义拓扑图进行推理,得到所述当前语音指令对应的语义指代;对所述语义指代和所述待定位图像进行特征对齐,以在所述待定位图像中定位与所述语义指代匹配的目标对象。本申请通过对语音指令的语义结构化处理,能够对含有口语化语言指令的语义进行精准推理,从而大大提高了视觉定位系统的鲁棒性,有利于提高日常对话场景中的视觉定位效果。
技术关键词
拓扑图
意图识别模型
视觉定位方法
数据格式
视觉定位系统
图像特征向量
因子
三元组
视觉定位技术
语义特征提取
图像特征提取
样本
对象
对齐模块
滑动窗口
存储器
系统为您推荐了相关专利信息
列车车地通信方法
数字孪生模型
通信节点
受限
历史运行数据
信息监管方法
时序
融合算法
生态敏感区
挖掘算法
交互系统
意图识别模型
多模态特征
实时数据采集
非暂态计算机可读介质
动态表单生成方法
意图类别
意图识别模型
查询关键词
客户