基于策略梯度的深度强化学习多任务资源分配方法

正文

推荐专利

申请号：CN202510152665

申请日期：2025-02-12

公开号：CN120073768A

公开日期：2025-05-30

类型：发明专利

摘要

本发明公开了一种基于策略梯度的深度强化学习多任务资源分配方法，该方法基于策略梯度的深度强化学习对目标历史所处的环境与状态下的资源分配决策进行智能体训练与感知，其中的策略梯度算法是智能体根据当前策略直接和环境交互，通过采样得到的轨迹数据直接计算出策略参数的梯度，进而更新当前策略，使其向最大化策略期望回报的目标靠近；策略梯度算法中采用蒙特卡洛方法采样轨迹来估计动作价值，可得到无偏的梯度，使得其在新的环境与状态下依然能够动态调整资源分配的决策，达到收益最大化。

技术关键词

资源分配方法运动轨迹数据传感器设备策略多任务智能体模型深度强化学习模型梯度算法蒙特卡洛方法更新方法决策动态参数

系统为您推荐了相关专利信息

一种语音控制智能陪护机器人服务方法及系统

智能陪护机器人人体生物力学模型力传感器阵列反馈控制系统质心偏移量

一种基于多目标进化算法的MIMO系统资源块和功率分配方法

功率分配方法进化算法系统吞吐量数学模型最大化系统

基于混沌蝴蝶优化算法的交直流混联电网连锁故障控制方法

交直流混联电网节点发电机算法负荷

适配结构化与非结构数据的文件处理方法

数据动态加权方法词频统计多模态自然语言文本

一种数据中心智能运维与故障预测系统及方法

故障预测系统自动化执行模块数据中心故障识别算法机器学习特征

基于策略梯度的深度强化学习多任务资源分配方法

站点导航

APP 下载