面向稀疏连续控制任务的奖励塑造方法、装置、介质及终端

正文

推荐专利

申请号：CN202410729427

申请日期：2024-06-06

公开号：CN118586282A

公开日期：2024-09-03

类型：发明专利

摘要

本发明公开了面向稀疏连续控制任务的奖励塑造方法、装置、介质及终端，包括采集智能体与仿真环境交互产生的经验数据，包括智能体执行的动作，仿真环境的当前状态信息和下一个状态信息，以及仿真外部奖励信号；利用全连接神经网络构建势能函数网络模型，获取智能体在当前状态和下一个状态的仿真环境的势能值；根据势能值差，通过奖励塑造函数计算内在奖励信号并和仿真外部奖励信号合并，得到最终的奖励信号；利用损失函数对势能函数网络模型进行更新，调整智能体执行动作的策略，使智能体在与环境的交互中获得最大化累积奖励；本发明利用状态之间的新旧策略的优势值差异作为内在奖励，提高了稀疏连续控制任务中的智能体性能，降低了计算成本。

技术关键词

仿真环境深度强化学习算法信号数据获取模块更新网络参数动作策略处理器传播算法终端计算方法超参数可读存储介质存储器误差定义

系统为您推荐了相关专利信息

一种基于单链-多链MCMC自适应选取的随钻方位电磁波反演方法

反演方法反演模型地层电阻率测井多参数

一种制动液泄露的预警方法、装置、电子设备和存储介质

助力制动系统数据映射表初始机械角度液压发射组件

电力系统次/超同步振荡信号识别方法及装置

信号识别方法电力系统频段特征向量空间多模态

基于多模态数据插补与融合的可信机械故障诊断方法、系统、设备及介质

机械故障诊断方法诊断机械设备故障诊断模型多模态多输入单输出

FPC高性能计算芯片接口的电磁屏蔽补偿方法及系统

支持向量机模型补偿方法高性能扩张状态观测器补偿控制器

面向稀疏连续控制任务的奖励塑造方法、装置、介质及终端

站点导航

APP 下载