摘要
本发明公开了一种基于梯度强化策略优化的电力调度操作票审核模型动态微调方法、系统、设备及存储介质,所述方法包括以下步骤:将电力调度规则库转换为可微分损失函数融入GRPO训练框架;提取文本语义与电网拓扑图特征,利用改进后的GRPO训练框架,基于蒙特卡洛搜索树MCTS进行预训练,生成符合电网物理约束的对抗样本模型;实时更新规则在线导入对抗样本模型;本发明聚焦规则动态嵌入与样本不平衡联合优化。
技术关键词
审核模型
微调方法
微调系统
拓扑图
电网拓扑约束
策略
电力调度系统
语义特征
动态
蒙特卡洛
防误闭锁
学习设备
文本
传播算法
梯度下降算法
样本
框架
模块
系统为您推荐了相关专利信息
软件定义网络
位置优化方法
时延
网络控制器
交换机
疾病预测分析方法
多模态
拓扑图
疾病特征
敏感度矩阵