摘要
本公开的实施例提供了用于策略优化的方法、装置、设备和可读存储介质。该方法包括:基于与第一组对象对应的源数据集,确定属性关联信息,源数据集包括第一组对象中的每个对象的属性、是否对该对象应用目标动作的指示和与该对象相关的观测结果,属性关联信息指示根据源数据集而得到的对象观测数据与对象属性的关联;基于第一组对象的数目和与目标数据集对应的第二组对象的数目,确定用于将属性关联信息从源数据集变换到目标数据集的变换因子,目标数据集包括第二组对象中的每个对象的属性;基于是否对第一组对象和第二组对象中的样本对象应用目标动作的样本决策、属性关联信息和变换因子确定针对策略模型的奖励;以及利用奖励来更新策略模型。
技术关键词
对象
样本
决策
数据
因子
策略优化方法
计算机可执行指令
效应
处理器
机器人
计算机程序产品
模型更新
电子设备
可读存储介质
模块
存储器
规划
系统为您推荐了相关专利信息
电缆隧道
道路边界检测
导航路径识别方法
坐标点
检测道路边界
深度学习模型
人工智能模型
项目
光伏发电量
卷积神经网络模型
模型数据生成方法
计算机可执行指令
大语言模型
场景
多模态
序列
多头注意力机制
特征学习网络
交易特征
电子设备