一种空间对齐与选择性权重激活的持续离线强化学习方法

正文

推荐专利

申请号：CN202510248451

申请日期：2025-03-04

公开号：CN119761454A

公开日期：2025-04-04

类型：发明专利

摘要

本申请提供了一种空间对齐与选择性权重激活的持续离线强化学习方法，包括：针对持续学习任务序列中的每一个任务，使用该任务对应的数据集，利用量化空间对齐方法将状态空间和动作空间对齐，以得到相同空间下的状态序列和动作序列；获取单时间步奖励序列，并利用奖励函数计算出累积折扣奖励和序列；基于该任务的状态序列，将累积折扣奖励和序列作为扩散模型的条件信息，利用被激活的扩散模型生成给定状态序列，再利用逆动力学模型生成给定动作序列；将各任务累积的折扣奖励和的最大化作为目标，进行持续强化学习，以更新各任务对应的扩散模型参数，和逆动力学模型参数。该方法使各任务的强化学习过程在同样的空间上进行，并有效缓解了灾难性遗忘。

技术关键词

状态向量数据强化学习方法序列逆动力学模型对齐方法掩码矩阵编码器数据分布解码器重构参数离线关系

系统为您推荐了相关专利信息

基于中医脉象与微循环的多模态同步监测方法及其系统

图像序列数据微循环同步监测方法卷积神经网络模型血流

一种基于强化迁移学习的跨领域样本迁移方面级情感分类方法

情感分类方法样本编码器模块数据情感分类模型

一种基于多头注意力网络的短波协议识别方法、装置、设备及存储介质

协议识别方法注意力协议识别设备数据协议识别装置

车辆的车道偏移提醒方法、装置、车辆及存储介质

轨迹线历史运行数据轨迹预测模型车辆神经网络模型

一种基于风险感知的服务器资源分配方法

决策风险优化器资源分配框架时间序列预测模型

一种空间对齐与选择性权重激活的持续离线强化学习方法

站点导航

APP 下载