摘要
本发明提供鲁棒智能决策方法、装置及其电子设备,涉及人工智能技术领域。所述方法包括:确定目标环境的状态空间中当前状态;将所述当前状态输入值函数分布网络,得到所述值函数分布网络输出的多个逆累积分布函数值,所述逆累积分布函数值与指定分位数相对应;基于所述逆累积分布函数值确定所述当前状态的当前动态风险等级,将所述当前状态和所述当前动态风险等级输入策略网络,得到所述策略网络输出的动作概率分布;基于所述动作概率分布选择动作,根据所述动作确定在目标环境的状态空间中下一状态,所述下一状态为终止状态的情况下,完成智能决策,能够降低策略网络陷入局部最优的风险。
技术关键词
累积分布函数
智能决策方法
网络
策略
动态
条件风险价值
轨迹
非暂态计算机可读存储介质
智能决策装置
电子设备
人工智能技术
处理器
模块
存储器
系统为您推荐了相关专利信息
电磁环境信号
融合特征
分数阶傅里叶变换
分选方法
递归最小二乘算法
车辆路径规划方法
深度Q网络
动作策略
节点
贪心策略
深度学习模型
深度学习框架
主机
边缘计算环境
数据分布
功率提升方法
输电走廊
电网状态信息
有功功率
母线
光伏发电功率预测模型
双向长短期记忆网络
方差贡献率
局部注意力机制
模型训练方法