一种基于行为动作生成的离线强化学习方法

正文

推荐专利

一种基于行为动作生成的离线强化学习方法

申请号：CN202411580576

申请日期：2024-11-07

公开号：CN119514639A

公开日期：2025-02-25

类型：发明专利

摘要

本发明公开了一种基于行为动作生成的离线强化学习方法，包括：采集智能体的第一数据集并进行预处理，获得离线数据集；构建第一扩散模型进行训练，获得最终扩散模型；针对离线数据集中的每个状态，从最终扩散模型中采集M个与状态相对应的动作，构成支持动作数据集；构建策略网络、N个价值网络、目标策略网络以及N个目标价值网络；使用离线数据集和支持动作数据集对策略网络和价值网络进行训练，并同时更新目标策略网络和目标价值网络的网络参数；使用学习到的最优目标策略网络进行决策，以使智能体在离线环境下进行强化学习任务。本发明减小了现有离线学习方法对策略学习的限制，显著提升了机器人或自动驾驶任务的完成度和执行效果。

技术关键词

强化学习方法策略数据梯度下降法更新方法离线学习方法自动驾驶装置参数网络结构生成动作机器人决策样本算法

系统为您推荐了相关专利信息

一种判断暂堵颗粒缝内封堵位置的方法

裂缝参数形态处理器数学模型计算机设备

异常气味在线监测系统、方法、设备及存储介质

气味在线监测方法动态网格骨骼关键点在线监测系统气流

一种生产安全事故责任追究信息抽取方法及系统

信息抽取模型多任务信息抽取方法标注工具信息抽取系统

一种基于算术编码的数据压缩方法及装置

数据压缩方法字符分块二进制算术编码数据传输开销

一种数据处理方法、装置及设备

大语言模型数据处理方法推荐商品信息订单客户端

一种基于行为动作生成的离线强化学习方法

站点导航

APP 下载