基于迭代优化和多粒度感知的具身对话定位方法及装置

正文

推荐专利

申请号：CN202510321220

申请日期：2025-03-18

公开号：CN120180366A

公开日期：2025-06-20

类型：发明专利

摘要

本发明属于计算机视觉技术与具身智能技术领域，公开了一种基于迭代优化和多粒度感知的具身对话定位方法及装置；其中，所述具身对话定位方法包括：获取包含多轮对话的文本以及对应的2D地图图像；基于获取的文本和2D地图图像，利用训练好的具身对话定位模型进行目标位置预测，获得目标位置预测坐标；其中，所述具身对话定位模型包括多尺度特征提取模块、跨模态特征融合模块、门控网络和掩码查询优化器。本发明公开的技术方案，有效提取了多粒度特征，实现了早期跨模态融合，且通过迭代优化逐步提升定位精度，能够显著提高具身对话定位的精确性和鲁棒性。

技术关键词

视觉特征定位方法多尺度特征提取查询优化器注意力文本多轮对话多模态特征跨模态地图非暂态计算机可读存储介质坐标图像编码器计算机视觉技术中间层模块网络多层感知机

基于迭代优化和多粒度感知的具身对话定位方法及装置

站点导航

APP 下载