一种基于世界模型扩展的无监督强化学习方法与系统

正文

推荐专利

申请号：CN202510983526

申请日期：2025-07-17

公开号：CN121031701A

公开日期：2025-11-28

类型：发明专利

摘要

本发明提供了一种基于世界模型扩展的无监督强化学习方法与系统，属于计算机深度学习领域。所述方法获取已训练完毕的专家策略与环境交互的历史离线数据集D；构建世界模型神经网络，并基于D进行训练；再构建无监督强化学习模型，并设置初始的当前预测状态；将当前预测状态、技能向量z输入策略网络得到动作；将当前预测状态和动作输入到成熟的世界模型神经网络中，得到下一预测状态；得到完整轨迹数据后，存入回放缓冲区中；随机采样部分轨迹数据，对无监督强化学习模型进行训练；将当前环境状态和智能体的技能向量z输入成熟的无监督强化学习模型中，输出动作参数，并控制智能体执行相应动作。本发明提高了无监督强化学习的泛化能力和学习效率。

技术关键词

强化学习模型模型训练模块控制智能体强化学习方法无监督策略多层感知机计算机深度学习数据离线参数缓冲模块轨迹强化学习系统并行计算架构神经网络训练控制模块缓冲池

系统为您推荐了相关专利信息

一种针对目标检测模型中目标边界框定位的对抗攻击方法及系统

原始图像数据样本深度学习技术特征提取网络模型训练模块

一种基于近红外光谱的油品检测方法、系统、设备与介质

油品检测方法偏最小二乘法样本乙醇汽油变量

一种无监督电力文本分级改写方法及系统

改写方法文本知识点无监督电力

一种基于势场增强强化学习的多机器人集群围捕方法及系统

围捕方法人工势场法强化学习策略机器人集群

基于对比学习的非侵入式负荷辨识方法

负荷辨识方法更新模型参数标签样本数据

一种基于世界模型扩展的无监督强化学习方法与系统

站点导航

APP 下载