摘要
本发明属于计算机视觉技术与具身智能技术领域,公开了一种基于迭代优化和多粒度感知的具身对话定位方法及装置;其中,所述具身对话定位方法包括:获取包含多轮对话的文本以及对应的2D地图图像;基于获取的文本和2D地图图像,利用训练好的具身对话定位模型进行目标位置预测,获得目标位置预测坐标;其中,所述具身对话定位模型包括多尺度特征提取模块、跨模态特征融合模块、门控网络和掩码查询优化器。本发明公开的技术方案,有效提取了多粒度特征,实现了早期跨模态融合,且通过迭代优化逐步提升定位精度,能够显著提高具身对话定位的精确性和鲁棒性。
技术关键词
视觉特征
定位方法
多尺度特征提取
查询优化器
注意力
文本
多轮对话
多模态特征
跨模态
地图
非暂态计算机可读存储介质
坐标
图像
编码器
计算机视觉技术
中间层
模块
网络
多层感知机