基于策略梯度的深度强化学习多任务资源分配方法

AITNT
正文
推荐专利
基于策略梯度的深度强化学习多任务资源分配方法
申请号:CN202510152665
申请日期:2025-02-12
公开号:CN120073768A
公开日期:2025-05-30
类型:发明专利
摘要
本发明公开了一种基于策略梯度的深度强化学习多任务资源分配方法,该方法基于策略梯度的深度强化学习对目标历史所处的环境与状态下的资源分配决策进行智能体训练与感知,其中的策略梯度算法是智能体根据当前策略直接和环境交互,通过采样得到的轨迹数据直接计算出策略参数的梯度,进而更新当前策略,使其向最大化策略期望回报的目标靠近;策略梯度算法中采用蒙特卡洛方法采样轨迹来估计动作价值,可得到无偏的梯度,使得其在新的环境与状态下依然能够动态调整资源分配的决策,达到收益最大化。
技术关键词
资源分配方法 运动轨迹数据 传感器设备 策略 多任务 智能体模型 深度强化学习模型 梯度算法 蒙特卡洛方法 更新方法 决策 动态 参数
系统为您推荐了相关专利信息
1
一种语音控制智能陪护机器人服务方法及系统
智能陪护机器人 人体生物力学模型 力传感器阵列 反馈控制系统 质心偏移量
2
一种基于多目标进化算法的MIMO系统资源块和功率分配方法
功率分配方法 进化算法 系统吞吐量 数学模型 最大化系统
3
基于混沌蝴蝶优化算法的交直流混联电网连锁故障控制方法
交直流混联电网 节点 发电机 算法 负荷
4
适配结构化与非结构数据的文件处理方法
数据 动态加权方法 词频统计 多模态 自然语言文本
5
一种数据中心智能运维与故障预测系统及方法
故障预测系统 自动化执行模块 数据中心 故障识别算法 机器学习特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号