摘要
本发明公开了一种感知稀疏下基于知信引导的分层策略方法,通过基于知信数据的子目标节点构建方法,完善子目标节点的采样,提高整体学习效率;将强化学习建模成无向概率图模型,引入割边割点的概念并纳入子目标采样的指标体系,通过路径最优化方法选择采样得到的知信坐标集合,使模型能够有效地识别和利用环境结构中的关键信息;本发明确保不同层次上的策略不产生冲突,从而在稀疏奖励环境下显著提高学习效率和策略质量。
技术关键词
分层策略
策略更新
节点
消息传递算法
强化学习环境
坐标
强化学习算法
队列
梯度下降法
度量
处理器
样本
知识点
数据
存储器
定义
电子设备
频率
参数
系统为您推荐了相关专利信息
光谱特征提取
评估预警系统
土壤重金属污染
指数
模拟模型
课程推荐方法
大语言模型
序列
关系
课程推荐系统
调度系统
换电机器人
轮式
局部路径规划
高精度定位系统