一种基于行为动作生成的离线强化学习方法

AITNT
正文
推荐专利
一种基于行为动作生成的离线强化学习方法
申请号:CN202411580576
申请日期:2024-11-07
公开号:CN119514639A
公开日期:2025-02-25
类型:发明专利
摘要
本发明公开了一种基于行为动作生成的离线强化学习方法,包括:采集智能体的第一数据集并进行预处理,获得离线数据集;构建第一扩散模型进行训练,获得最终扩散模型;针对离线数据集中的每个状态,从最终扩散模型中采集M个与状态相对应的动作,构成支持动作数据集;构建策略网络、N个价值网络、目标策略网络以及N个目标价值网络;使用离线数据集和支持动作数据集对策略网络和价值网络进行训练,并同时更新目标策略网络和目标价值网络的网络参数;使用学习到的最优目标策略网络进行决策,以使智能体在离线环境下进行强化学习任务。本发明减小了现有离线学习方法对策略学习的限制,显著提升了机器人或自动驾驶任务的完成度和执行效果。
技术关键词
强化学习方法 策略 数据 梯度下降法 更新方法 离线学习方法 自动驾驶装置 参数 网络结构 生成动作 机器人 决策 样本 算法
系统为您推荐了相关专利信息
1
一种判断暂堵颗粒缝内封堵位置的方法
裂缝参数 形态 处理器 数学模型 计算机设备
2
异常气味在线监测系统、方法、设备及存储介质
气味在线监测方法 动态网格 骨骼关键点 在线监测系统 气流
3
一种生产安全事故责任追究信息抽取方法及系统
信息抽取模型 多任务 信息抽取方法 标注工具 信息抽取系统
4
一种基于算术编码的数据压缩方法及装置
数据压缩方法 字符 分块 二进制算术编码 数据传输开销
5
一种数据处理方法、装置及设备
大语言模型 数据处理方法 推荐商品信息 订单 客户端
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号