摘要
本发明公开了一种基于扩散模型的在线强化学习数据增扩方法,包括对原始轨迹数据进行处理生成增强特征数据;提取全局结构表示和局部细节表示;采用层级整合方法进行融合,得到统一的分层表示数据;基于预先存储的物理约束参数和任务约束参数,生成约束编码数据,融合生成约束感知表示数据;基于当前策略参数生成评估结果;对约束感知表示数据进行自适应调整,得到调整后的表示数据;进行模态分析,生成多样化的轨迹数据,得到候选轨迹集合;进行质量评估,并通过多目标优化方法进行轨迹筛选,更新策略网络参数,得到更新后的策略参数。本发明能够自动生成高质量的训练数据,提升强化学习系统的训练效率和性能。
技术关键词
轨迹
时序特征
在线
参数
相关性计算方法
多尺度特征
动态时间规整算法
交互特征
模态分析
数据存储器
强化学习系统
动态更新方法
策略优化方法
特征分析方法
关联分析方法
小波变换处理
注意力机制
拉格朗日方程
系统为您推荐了相关专利信息
关键控制参数
机组运行状态
优化预测模型
机器学习算法
火电
面部图像识别
疲劳驾驶状态
疲劳驾驶检测方法
疲劳驾驶预警
车辆行驶参数
精密机床主轴
在线分析方法
周期性特征
机械部件测试技术
数据
管道缺陷识别方法
谱图特征
声学传感器
深度学习模型
时序特征