摘要
本发明提供一种基于强化学习的自适应评估函数动态权重调整方法,包括:获取预设在线强化学习算法的初始权重、优化器参数以及在线强化参数;基于所述初始权重进行单位类型权重初始化并记录初始得分,基于初始得分检索在线强化学习算法物理状态,初始化不同单位类型的得分,并计算资源得分;根据当前资源得分和上次得分差异,通过预设的优化器更新在线强化学习中的学习率和衰减率;基于更新后的学习率和衰减率通过在线强化学习更新单位类型权重,并记录最新的得分和权重,直到评估结束。本发明解决了现有在线强化学习的态势评估效率低、准确性差的问题。
技术关键词
强化学习算法
在线
优化器
动态
非暂态计算机可读存储介质
参数
资源状态信息
处理器
数据获取模块
计算机程序产品
物理
偏差
校正
存储器
电子设备
系统为您推荐了相关专利信息
铁水罐铁水
转炉控制系统
智能算法
建立预测模型
动态
故障反演
动态校正方法
知识图谱库
双向长短期记忆网络
波形
混合整数非线性规划模型
储能系统
电力交易计划
滚动时域优化
充放电功率