基于世界模型的增强强化学习方法

AITNT
正文
推荐专利
基于世界模型的增强强化学习方法
申请号:CN202510438726
申请日期:2025-04-09
公开号:CN120542512A
公开日期:2025-08-26
类型:发明专利
摘要
本发明涉及人工智能与智能决策技术领域,公开了一种基于世界模型的增强强化学习方法。其中,该方法包括:S100,智能体从环境中接收当前时刻环境状态,并将当前时刻决策与当前时刻环境状态进行融合,生成当前时刻表征向量;S102,智能体将当前时刻表征向量输入到世界模型中;S104,世界模型基于所输入的当前时刻表征向量预测下一时刻的环境状态以及当前时刻的奖励,并将预测的下一时刻的环境状态以及当前时刻的奖励反馈至智能体;S106,智能体根据预测的下一时刻的环境状态以及当前时刻的奖励生成下一时刻的决策,转至步骤S100。由此,可以通过构建环境动力学的模型(世界模型),显著提高强化学习算法在复杂环境中的样本效率和策略优化能力。
技术关键词
强化学习方法 强化学习算法 仿真环境 智能决策技术 深度Q网络 深度神经网络 预测误差 策略 变量 样本
系统为您推荐了相关专利信息
1
一种基于航天嵌入式软件的系统级虚拟仿真平台
航天嵌入式软件 虚拟仿真平台 系统级 虚拟仿真环境 分布式仿真
2
物流场景资源调度方法、系统、电子设备及存储介质
深度强化学习模型 混合整数规划模型 深度Q网络 策略 资源调度方法
3
电力多智能体动态协作巡检方法及系统
多智能体动态 工作状态数据 巡检方法 巡检路径 电力巡检
4
基于倾倒防洒的咖啡机机械臂加速度补偿控制方法及装置
加速度 咖啡机 咖啡饮品 序列 订单
5
模型训练方法、查询方法、装置、服务器和存储介质
样本 强化学习算法 模型训练方法 度量 意图
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号