摘要
本申请涉及一种智能体的引导方法、装置、电子设备及存储介质,其中,方法包括:对目标数据集中的每个原始状态加入高斯噪声,以得到扰动后的状态;利用至少一个约束条件约束初始训练策略,以得到实际训练策略,其中,实际训练策略在扰动后的状态上引发的转移分布与原始状态下基于价值的状态转移分布对齐;从扰动后的状态开始,引导智能体基于实际训练策略转移到基于价值的状态转移分布中的高价值分布内状态。由此,解决了相关技术中,计算效率较低,且算法的简洁性较差,在数据集包含大量次优状态的情况下,易影响策略质量的技术问题。
技术关键词
策略
表达式
数据
电子设备
噪声
处理器
引导装置
网络
可读存储介质
存储器
模块
程序
计算机
算法
参数
系统为您推荐了相关专利信息
锂电池内部温度
多尺度特征融合
锂电池模组
累积分布函数
状态空间模型
编码特征
视频帧
人体图像分割方法
图像编码
序列
核主泵转子
故障诊断方法
皮尔逊相关系数
故障分类模型
高效率
并行预测方法
环境监测数据
桥梁结构
预测模型建立方法
日期