摘要
本申请涉及强化学习技术领域,尤其涉及一种基于扩展卡尔曼滤波和强化学习的束线站参数优化方法,包括基于初始策略和预设的目标状态从环境中随机选择初始状态并进行采样,收集多条由连续经验四元组组成的轨迹数据;在第一轮采样使用收集到的轨迹数据训练概率神经网络得到状态转移模型;对于每条轨迹数据结合状态转移模型开展扩展卡尔曼滤波,使用滤波后的下一时刻状态替换进每条轨迹数据的经验四元组中并保存进经验回放池;使用DDPG算法从经验回放池中随机采样经验四元组并对策略进行学习更新获得新的策略,依此循环直至策略学习完成。本申请能够缓解系统误差带来的影响,提高状态估计的准确性,从而使得策略的学习更为精准。
技术关键词
状态转移模型
扩展卡尔曼滤波
参数优化方法
协方差矩阵
轨迹
策略
参数优化系统
强化学习技术
数据采集模块
系统误差
程序
处理器
代表
算法
阶段
可读存储介质
存储器
系统为您推荐了相关专利信息
物体抓取方法
视觉感知设备
五次多项式插值
粒子群优化算法
图片
优化部署方法
无线传感器网络
TDOA测量误差
无线传感器节点
协方差矩阵
综合健康指数
故障诊断方法
故障传播路径
机组
高斯混合模型