面向稀疏连续控制任务的奖励塑造方法、装置、介质及终端

AITNT
正文
推荐专利
面向稀疏连续控制任务的奖励塑造方法、装置、介质及终端
申请号:CN202410729427
申请日期:2024-06-06
公开号:CN118586282A
公开日期:2024-09-03
类型:发明专利
摘要
本发明公开了面向稀疏连续控制任务的奖励塑造方法、装置、介质及终端,包括采集智能体与仿真环境交互产生的经验数据,包括智能体执行的动作,仿真环境的当前状态信息和下一个状态信息,以及仿真外部奖励信号;利用全连接神经网络构建势能函数网络模型,获取智能体在当前状态和下一个状态的仿真环境的势能值;根据势能值差,通过奖励塑造函数计算内在奖励信号并和仿真外部奖励信号合并,得到最终的奖励信号;利用损失函数对势能函数网络模型进行更新,调整智能体执行动作的策略,使智能体在与环境的交互中获得最大化累积奖励;本发明利用状态之间的新旧策略的优势值差异作为内在奖励,提高了稀疏连续控制任务中的智能体性能,降低了计算成本。
技术关键词
仿真环境 深度强化学习算法 信号 数据获取模块 更新网络参数 动作策略 处理器 传播算法 终端 计算方法 超参数 可读存储介质 存储器 误差 定义
系统为您推荐了相关专利信息
1
一种基于单链-多链MCMC自适应选取的随钻方位电磁波反演方法
反演方法 反演模型 地层电阻率 测井 多参数
2
一种制动液泄露的预警方法、装置、电子设备和存储介质
助力制动系统 数据映射表 初始机械角度 液压 发射组件
3
电力系统次/超同步振荡信号识别方法及装置
信号识别方法 电力系统 频段 特征向量空间 多模态
4
基于多模态数据插补与融合的可信机械故障诊断方法、系统、设备及介质
机械故障诊断方法 诊断机械设备 故障诊断模型 多模态 多输入单输出
5
FPC高性能计算芯片接口的电磁屏蔽补偿方法及系统
支持向量机模型 补偿方法 高性能 扩张状态观测器 补偿控制器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号