摘要
本公开提供一种基于智能体训练的奖励生成方法及相关装置,涉及计算机技术领域。该方法为:对结构化环境数据进行处理,获得不同维度的局部奖励信息;所述结构化环境数据为对智能体针对的外部环境所采集的外接环境数据处理后所获得的;对不同维度的奖励的权重信息进行调整,获得不同维度的奖励的融合权重信息;根据所述不同维度的局部奖励信息和不同维度的奖励的融合权重信息,确定综合奖励信息,以基于所述综合奖励信息对所述智能体进行策略更新。
技术关键词
策略更新
生成方法
轻量化神经网络
数据
输入接口
计算机程序产品
处理器
复杂度
生成装置
动态
处理单元
非线性
阶段
电子设备
指令
存储器
在线
场景
周期
参数
系统为您推荐了相关专利信息
实时监测数据
数字孪生体
校核方法
后验概率
策略
路径评估方法
双模定位终端
国密SM4算法
物流
梯度下降法
离散状态空间
电加热炉系统
参数辨识方法
卡尔曼滤波
状态空间模型