摘要
本发明提供一种目标定位方法、系统、机器人和介质。方法包括:获取发送者的场景图像和自然语言指令;其中,场景图像为单目RGB图像,包含发送者及其指示的目标物体,自然语言指令为发送者发出的描述目标物体的语义信息;对场景图像进行深度估计,生成场景图像中场景的空间特征图;从场景图像中提取发送者掩码、姿态特征图和手势特征图,并基于发送者掩码确定发送者的中心位置;将空间特征图转换为以中心位置为原点的重定位空间特征图;将发送者掩码、姿态特征图、手势特征图、重定位空间特征图以及自然语言指令输入至多模态目标检测模型,生成目标物体在场景中的位置。本发明提升了机器人在进行交互任务时,对目标物体的定位精度。
技术关键词
发送者
手势特征
多模态特征
姿态特征
自然语言
注意力
定位方法
融合特征
机器人
语义
指令
物体
人体姿态估计算法
像素点
生成场景图像
网络