摘要
本申请提供了一种空间对齐与选择性权重激活的持续离线强化学习方法,包括:针对持续学习任务序列中的每一个任务,使用该任务对应的数据集,利用量化空间对齐方法将状态空间和动作空间对齐,以得到相同空间下的状态序列和动作序列;获取单时间步奖励序列,并利用奖励函数计算出累积折扣奖励和序列;基于该任务的状态序列,将累积折扣奖励和序列作为扩散模型的条件信息,利用被激活的扩散模型生成给定状态序列,再利用逆动力学模型生成给定动作序列;将各任务累积的折扣奖励和的最大化作为目标,进行持续强化学习,以更新各任务对应的扩散模型参数,和逆动力学模型参数。该方法使各任务的强化学习过程在同样的空间上进行,并有效缓解了灾难性遗忘。
技术关键词
状态向量数据
强化学习方法
序列
逆动力学模型
对齐方法
掩码矩阵
编码器
数据分布
解码器
重构
参数
离线
关系
系统为您推荐了相关专利信息
图像序列数据
微循环
同步监测方法
卷积神经网络模型
血流
情感分类方法
样本
编码器模块
数据
情感分类模型
协议识别方法
注意力
协议识别设备
数据
协议识别装置
轨迹线
历史运行数据
轨迹预测模型
车辆
神经网络模型
决策
风险
优化器
资源分配框架
时间序列预测模型