基于世界模型的增强强化学习方法

正文

推荐专利

基于世界模型的增强强化学习方法

申请号：CN202510438726

申请日期：2025-04-09

公开号：CN120542512A

公开日期：2025-08-26

类型：发明专利

摘要

本发明涉及人工智能与智能决策技术领域，公开了一种基于世界模型的增强强化学习方法。其中，该方法包括：S100，智能体从环境中接收当前时刻环境状态，并将当前时刻决策与当前时刻环境状态进行融合，生成当前时刻表征向量；S102，智能体将当前时刻表征向量输入到世界模型中；S104，世界模型基于所输入的当前时刻表征向量预测下一时刻的环境状态以及当前时刻的奖励，并将预测的下一时刻的环境状态以及当前时刻的奖励反馈至智能体；S106，智能体根据预测的下一时刻的环境状态以及当前时刻的奖励生成下一时刻的决策，转至步骤S100。由此，可以通过构建环境动力学的模型(世界模型)，显著提高强化学习算法在复杂环境中的样本效率和策略优化能力。

技术关键词

强化学习方法强化学习算法仿真环境智能决策技术深度Q网络深度神经网络预测误差策略变量样本

系统为您推荐了相关专利信息

一种基于航天嵌入式软件的系统级虚拟仿真平台

航天嵌入式软件虚拟仿真平台系统级虚拟仿真环境分布式仿真

物流场景资源调度方法、系统、电子设备及存储介质

深度强化学习模型混合整数规划模型深度Q网络策略资源调度方法

电力多智能体动态协作巡检方法及系统

多智能体动态工作状态数据巡检方法巡检路径电力巡检

基于倾倒防洒的咖啡机机械臂加速度补偿控制方法及装置

加速度咖啡机咖啡饮品序列订单

模型训练方法、查询方法、装置、服务器和存储介质

样本强化学习算法模型训练方法度量意图

基于世界模型的增强强化学习方法

站点导航

APP 下载