摘要
本发明公开了一种基于可解释深度强化学习的机器人导航方法,通过预训练互模拟度量来度量两个状态间的不同程度,得到用于聚类的互模拟度量的编码器;使用迭代的决策树模型与机器人导航环境交互,获得用于训练决策树模型的数据集,并根据得到的互模拟度量的编码器完成对数据集的聚类;使用聚类后的数据集对多个决策树模型进行训练,使每个决策树模型学习到对应的状态空间,得到面向可解释深度强化学习的决策树模型;将所得到的决策树模型应用于机器人导航环境。上述方法可以在不增加决策树自身复杂度的基础上,有效增强性能表现,从而获得同时具有良好可解释性以及良好性能表现的决策树模型。
技术关键词
决策树模型
机器人导航方法
深度强化学习
度量
数据
CART算法
编码器
K均值聚类算法
定义
决策树训练
索引
策略
指数
推土机
复杂度
节点
系统为您推荐了相关专利信息
三维场景模型
融合点云数据
多视角
构建三维场景
纹理
机动车检测远程监管系统
检测机构
远程监管方法
机动车检测线
数据采集单元
液体通道
流量调节器
切换滑阀
数据采集组件
流量控制系统
安全设备组件
屏蔽门控制系统
存储单元
传感器单元
深度学习模型