一种空间对齐与选择性权重激活的持续离线强化学习方法

AITNT
正文
推荐专利
一种空间对齐与选择性权重激活的持续离线强化学习方法
申请号:CN202510248451
申请日期:2025-03-04
公开号:CN119761454A
公开日期:2025-04-04
类型:发明专利
摘要
本申请提供了一种空间对齐与选择性权重激活的持续离线强化学习方法,包括:针对持续学习任务序列中的每一个任务,使用该任务对应的数据集,利用量化空间对齐方法将状态空间和动作空间对齐,以得到相同空间下的状态序列和动作序列;获取单时间步奖励序列,并利用奖励函数计算出累积折扣奖励和序列;基于该任务的状态序列,将累积折扣奖励和序列作为扩散模型的条件信息,利用被激活的扩散模型生成给定状态序列,再利用逆动力学模型生成给定动作序列;将各任务累积的折扣奖励和的最大化作为目标,进行持续强化学习,以更新各任务对应的扩散模型参数,和逆动力学模型参数。该方法使各任务的强化学习过程在同样的空间上进行,并有效缓解了灾难性遗忘。
技术关键词
状态向量数据 强化学习方法 序列 逆动力学模型 对齐方法 掩码矩阵 编码器 数据分布 解码器 重构 参数 离线 关系
系统为您推荐了相关专利信息
1
基于中医脉象与微循环的多模态同步监测方法及其系统
图像序列数据 微循环 同步监测方法 卷积神经网络模型 血流
2
一种基于强化迁移学习的跨领域样本迁移方面级情感分类方法
情感分类方法 样本 编码器模块 数据 情感分类模型
3
一种基于多头注意力网络的短波协议识别方法、装置、设备及存储介质
协议识别方法 注意力 协议识别设备 数据 协议识别装置
4
车辆的车道偏移提醒方法、装置、车辆及存储介质
轨迹线 历史运行数据 轨迹预测模型 车辆 神经网络模型
5
一种基于风险感知的服务器资源分配方法
决策 风险 优化器 资源分配框架 时间序列预测模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号