摘要
本发明涉及安全控制技术领域,尤其涉及一种基于数据时效性的安全控制策略优化方法及系统,该方法包括以下步骤:S1,计算经验池中每个经验的数据时效性,Ai=tcurrent‑ti,根据数据时效性计算经验的采样概率,基于采样概率从经验池中抽取一批经验,利用抽取的经验训练Actor网络和Critic网络;S2,采集当前时间的车辆状态,并将车辆状态输入训练完成的Actor网络,输出得到控制动作;S3,采集车辆控制系统执行所述控制动作后的车辆状态,并将采集的车辆状态和所述控制动作输入训练完成的Critic网络,输出得到安全状态评估结果;S4,基于所述安全状态评估结果调整所述训练完成的Actor网络。本发明利用基于时间特性的采样策略,可以提高在不确定环境下的安全性和稳定性。
技术关键词
控制策略优化方法
时效性
车辆控制系统执行
网络
计算机可读指令
状态空间模型
数据
车辆系统执行
屏障
存储程序指令
计算机程序产品
动态
存储器
处理器
模块
参数
可读存储介质