摘要
本发明公开了一种基于策略梯度的深度强化学习多任务资源分配方法,该方法基于策略梯度的深度强化学习对目标历史所处的环境与状态下的资源分配决策进行智能体训练与感知,其中的策略梯度算法是智能体根据当前策略直接和环境交互,通过采样得到的轨迹数据直接计算出策略参数的梯度,进而更新当前策略,使其向最大化策略期望回报的目标靠近;策略梯度算法中采用蒙特卡洛方法采样轨迹来估计动作价值,可得到无偏的梯度,使得其在新的环境与状态下依然能够动态调整资源分配的决策,达到收益最大化。
技术关键词
资源分配方法
运动轨迹数据
传感器设备
策略
多任务
智能体模型
深度强化学习模型
梯度算法
蒙特卡洛方法
更新方法
决策
动态
参数
系统为您推荐了相关专利信息
智能陪护机器人
人体生物力学模型
力传感器阵列
反馈控制系统
质心偏移量
功率分配方法
进化算法
系统吞吐量
数学模型
最大化系统
数据
动态加权方法
词频统计
多模态
自然语言文本
故障预测系统
自动化执行模块
数据中心
故障识别算法
机器学习特征