摘要
本申请公开了一种基于多模态技术的智能机器人交互方法、系统及介质,主要涉及智能机器人控制技术领域,用以解决现有方案在导航技术上语义感知缺失,无法响应语义级指令、语义理解能力有限;在交互技术上,无法关联多轮对话中的语义信息、多模态观测信息缺乏协同机制;在异常检测上,依赖阈值判断或静态规则,误报率高的问题。包括:采集观测数据获得智能机器人当前位姿;利用RGB图像信息、当前位姿、滑动窗口下的连续RGB图像和对应的语音流信息、文字信息和三维点云,形成多模态数据;计算当前时刻每个状态变化的置信度,选择置信度最高的状态变化为决策状态,以及判断是否进行异常情况响应;基于多模态数据和决策状态,生成交互策略。
技术关键词
多模态技术
智能机器人
大语言模型
视觉传感器
图像
决策
激光雷达传感器
滑动窗口机制
多传感器融合
非易失性计算机存储介质
点云
语音
数据
状态机技术
系统为您推荐了相关专利信息
知识问答方法
工业互联网
运维知识库
文本
检索策略
镜头遮挡检测方法
直方图
图像采集设备
二值化图像
运动
表面缺陷检测方法
局部统计特征
计算机视觉
纹理特征
图像