摘要
本申请公开了调控策略的训练方法、调控动作的决策方法、装置及设备,涉及人工智能技术领域。该方法包括:获取调控对象的第一状态数据;通过调控策略网络根据第一状态数据,生成第一动作数据,第一动作数据用于指示针对调控对象产生的对应于第一时刻的调控动作;在安全运行条件的约束下,校正第一动作数据,得到校正后的第一动作数据,安全运行条件是用于确保调控对象安全运行的条件;基于第一动作数据、校正后的第一动作数据和第一状态数据,调整调控策略网络的参数,得到更新后的调控策略网络。该方法在保证调控策略单步决策的安全性的同时,保证调控策略网络是向收敛的方向进行更新,使经过训练的调控策略网络的决策可以具有长期的安全性。
技术关键词
调控策略
数据
对象
状态更新
优化器
决策方法
神经网络模型
参数
计算机程序产品
校正模块
计算机设备
数值
人工智能技术
处理器
训练装置
可读存储介质
系统为您推荐了相关专利信息
多肽
验证平台
微反应器
更新模型参数
多通道注射泵
数据智能分析方法
医药
主题分析模型
自然语言
主题集合
历史气象数据
虚拟仿真平台
训练样本集
气象预测方法
光伏组件模型