摘要
本发明公开了面向稀疏连续控制任务的奖励塑造方法、装置、介质及终端,包括采集智能体与仿真环境交互产生的经验数据,包括智能体执行的动作,仿真环境的当前状态信息和下一个状态信息,以及仿真外部奖励信号;利用全连接神经网络构建势能函数网络模型,获取智能体在当前状态和下一个状态的仿真环境的势能值;根据势能值差,通过奖励塑造函数计算内在奖励信号并和仿真外部奖励信号合并,得到最终的奖励信号;利用损失函数对势能函数网络模型进行更新,调整智能体执行动作的策略,使智能体在与环境的交互中获得最大化累积奖励;本发明利用状态之间的新旧策略的优势值差异作为内在奖励,提高了稀疏连续控制任务中的智能体性能,降低了计算成本。
技术关键词
仿真环境
深度强化学习算法
信号
数据获取模块
更新网络参数
动作策略
处理器
传播算法
终端
计算方法
超参数
可读存储介质
存储器
误差
定义
系统为您推荐了相关专利信息
助力制动系统
数据映射表
初始机械角度
液压
发射组件
信号识别方法
电力系统
频段
特征向量空间
多模态
机械故障诊断方法
诊断机械设备
故障诊断模型
多模态
多输入单输出
支持向量机模型
补偿方法
高性能
扩张状态观测器
补偿控制器