摘要
本发明公开了一种变电站视觉语音导航方法、系统、设备及介质,包括:获取当前环境的视觉信息以及语音指令;将所述当前环境的视觉信息以及语音指令输入到训练后的多模态视觉语音导航模型中,得到机器人可执行指令,根据机器人可执行指令控制机器人,直至达到目标位置,所述多模态视觉语音导航模型包括听觉编码器、视觉编码器、多处理器模块、解码器、知识图谱模块及输出层,其中,听觉编码器及视觉编码器与多处理器模块相连接,多处理器模块与解码器相连接,解码器及知识图谱模块与输出层相连接,该方法、系统、设备及介质能够提高导航的准确性及稳定性。
技术关键词
多处理器模块
语音导航方法
视觉
语音导航系统
多模态
解码器
图谱
评估机器人
变电站环境
RGB特征
可读存储介质
指令
导航模块
数据
计算机设备
系统为您推荐了相关专利信息
分块
数字高程模型
像素点
划分方法
卫星遥感图像
车辆周围环境数据
数字孪生模型
风险
深度神经网络模型
量子态