摘要
本发明公开了一种环境探索方法,具体是涉及到一种基于深度强化学习的环境探索方法、装置及电子设备。本发明创新性地引入对比学习机制,模拟人类通过对比强化关键信息识别的认知过程,在高维特征空间中对不同效用等级的节点施加对比约束,实现潜在表征解耦,使决策网络精准捕获关键区域特征,显著提升最优视点选择精度。同时,本发明设计了一套包含强制动作约束的训练规则,以优化决策路径。此外,本发明还提出了一种创新的图稀疏化算法,通过自适应图结构的简化,在保持性能标准的同时简化了计算复杂度。本发明在保持计算成本最低的同时,实现了5.6%的性能提升,为机器人、无人机等设备在大规模环境中的自主探索提供了全新的解决方案。
技术关键词
深度强化学习
网络
地图
节点
解码器
决策
样本
编码器
生成动作
注意力
地面
稀疏算法
电子设备
标志
变量
线性
存储器
邻居
处理器
模块
系统为您推荐了相关专利信息
设备运行数据
耳机充电盒
充电方法
训练样本数据
蓝牙耳机
节点
通道
非易失性可读存储介质
网络
计算机可读代码
多物理场协同
飞行汽车
连续动作空间
在线学习机制
相变材料模块
数据库存储单元
辅助平台
集成神经网络
轧辊
轴类零件