摘要
本发明实施例公开了一种模型训练方法、控制方法、设备、介质及程序产品。该方法包括:获取训练样本集;将训练样本中的下一训练状态输入初始行动网络,得到初始行动网络输出的下一训练动作;将下一训练动作、训练样本中的当前训练状态、当前训练动作及下一训练状态输入初始价值网络,得到初始价值网络输出的当前目标Q值;若不满足迭代终止条件,则根据当前目标Q值,更新初始价值网络,得到更新后的初始价值网络,更新初始行动网络,得到更新后的初始行动网络,返回执行“获取训练样本集”的步骤;若满足迭代终止条件,则将初始行动网络确定为目标控制模型。该模型训练方法实现了目标控制模型的快速收敛以及提高了被控设备的稳定性。
技术关键词
模型训练方法
网络
训练样本集
射频信号接收设备
可读存储介质
计算机程序产品
电子设备
处理器通信
功率源
存储器
误差
参数
控制器
数据
系统为您推荐了相关专利信息
自动驾驶决策方法
道路场景图像
传感器融合
车道
特征提取模块
工艺参数优化方法
镜像
参数优化装置
粗糙度
关系
压力自动调节方法
标签机
时间差
事件时间间隔
生成压力