摘要
本发明提供了一种基于知识引导的无地图导航模型实现的导航方法、装置、机器人及存储介质,该无地图导航模型是基于知识系统中的多条行动规则,对预先构建的DDPG算法模型进行训练得到的,相较于单一采用DDPG算法导航泛化性更强。在训练过程中,将引导动作指令与策略动作指令进行融合可以降低DDPG算法模型对动作选择的随机性,从而能够快速获取有价值的数据,提高学习效率,并且在奖励稀疏的环境,移动机器人可以在知识的引导下与环境交互,而不是随机的交互,避免陷入到局部最优,保证了在奖励稀疏环境中易收敛;以及将策略动作指令以及融合得到的综合动作指令均输入预设损失函数,降低了单一采用DDPG算法时对应损失函数的不确定性,从而使学习过程更稳定。
技术关键词
算法模型
移动机器人
指令
数据
导航方法
地图
策略
参数
代表
强度
可读存储介质
导航装置
处理器
存储器
计算机
控制模块
噪声
系统为您推荐了相关专利信息
变分自动编码器
分析预警方法
样本
索道
分析预警装置
现场可编辑门阵列
可编程逻辑电路
可编程系统
核心板
电源板
奶牛热应激
轮廓特征
图像
边缘检测算法
机器学习算法
人形机器人
误差补偿值
样品板
智能化实验室
抓夹装置