摘要
本发明公开了一种等离子体位形控制代理策略模型构建方法、装置及介质,通过构建托卡马克仿真环境,识别出PID控制器控制下失控场景的环境配置参数,得到配置的训练环境;采用强化学习代理模型进行学习,生成电流命令;基于托卡马克仿真环境中计算各时刻的控制点状态;将各时刻的控制点状态,电流命令与PID控制器得到的动作命令输入到奖励函数中,计算环境奖励;根据环境奖励、各时刻的控制点状态以及电流命令进行强化学习训练,更新命令策略;当强化学习代理模型符合收敛条件时,输出代理策略模型。本申请方案提供一种在非线性和复杂动态环境中应对瞬态较大扰动的能力的策略模型,保障托卡马克装置的稳定性和安全性。
技术关键词
强化学习代理
模型构建方法
仿真环境
控制点
命令
PID控制器
模型构建装置
电流
参数
托卡马克装置
可读存储介质
强化学习策略
强化学习算法
场景
计算机
误差
模块
系统为您推荐了相关专利信息
手套箱系统
虚拟现实交互设备
模拟模型
控制模块
可视化单元
聚脲复合材料
拉格朗日模型
深度学习数据集
深度学习模型
纤维
语法特征
语句
变量生成方法
语义分析模型
生成会话
重采样方法
卷积神经网络法
山地
图像数据处理
控制点