摘要
本发明提出了一种用于智能控制的强化学习状态表示优化方法,属于强化学习技术领域,首先从当前状态与后续状态之间的特征相关性和时间连续性角度进行状态特征的提取,然后引入对比协同模块,利用对比学习增强状态表示的鲁棒性,通过生成查询状态和键状态,并采用指数移动平均(EMA)机制优化查询编码器和键编码器的参数,最后通过将自过滤模块与对比协同模块结合,成功解决了高维状态表示、时间依赖性建模和状态鲁棒性提升等强化学习任务中的核心问题;本发明尤其适用于具有复杂环境动态的强化学习任务,如机器人控制、自动驾驶等。
技术关键词
强化学习模型
过滤模块
模型训练模块
策略
强化学习技术
编码器参数
位置编码器
轨迹
机器人控制
动态
鲁棒性
网络
决策
指数
框架
计算机