摘要
本发明公开了一种基于近端策略优化的粒子群算法自适应参数控制方法,包括:S1:初始化;S2:根据粒子群参数状态为子群选择参数动作,更新子群粒子速度与位置,评估每个粒子新位置的适应度值;S3:周期性地执行精英粒子迁移策略,依据全局最优适应度计算奖励信号;S4:将交互过程中所产生的状态、动作、奖励和新状态作为经验元组存储于经验缓冲区内;S5:当所述经验缓冲区内的数据量达到预设阈值时,使用缓冲区中的数据执行PPO算法更新,训练策略网络和价值网络;S6:循环执行S2‑S5,直至预设的最大评估次数,输出当前所获得的全局最优解及其对应的适应度值。本发明具有对不同问题和不同优化阶段的高度自适应能力。
技术关键词
参数控制方法
粒子群算法
策略
网络
Softmax函数
因子
粒子群优化算法
速度
比率
超参数
决策
索引
数据
轨迹
社会
时序
信号