基于因果推断的目标条件强化学习方法及系统

正文

推荐专利

申请号：CN202510018280

申请日期：2025-01-07

公开号：CN119849589A

公开日期：2025-04-18

类型：发明专利

摘要

本发明公开了基于因果推断的目标条件强化学习方法及系统，涉及强化学习技术领域，基于因果推断的目标条件强化学习方法，包括以下步骤：步骤一：通过抽象函数F(s；G)对全局状态s进行处理，生成抽象状态，去除与任务无关的特征；本发明提出一种基于因果推断的去混杂策略学习方法，通过引入因果图作为代理变量切断后门路径，从而消除因果偏差。能够有效抽象状态信息，去除与任务无关的特征，并在策略学习中利用因果图实现去混杂调整，从而提高学习过程的效率和泛化能力。通过理论分析和实验验证，本发明证明了在多种环境设置下，该方法能够显著提升目标条件强化学习模型的泛化能力，为智能体在现实场景中的应用提供了更加鲁棒和可扩展的解决方案。

技术关键词

强化学习方法抽象网络蒙特卡洛策略学习方法强化学习系统采样方法强化学习技术网络模块强化学习模型因子特征提取网络生成智能后门定义变量理论偏差场景

系统为您推荐了相关专利信息

一种铁路车站功能地震易损性评估方法

车站结构铁路地震参数推理算法

一种鲜烟叶成熟度图像评估方法及系统

鲜烟叶成熟度图像评估方法烟叶图像三维结构多任务

一种基于模型集群分析的代谢组学色谱峰面积校正方法

模型集群分析 SVR模型色谱校正方法样本

一种儿童用品VOCs联合暴露风险评估方法及装置

儿童用品暴露风险评估方法场景解耦方法计算机可读指令

基于BP神经网络的变压器内部绝缘寿命预测方法及系统

蚂蚁历史运行数据节点寿命预测方法寿命预测系统

基于因果推断的目标条件强化学习方法及系统

站点导航

APP 下载