摘要
本发明提供一种基于不确定性特征的对手建模方法和装置,包括:获取智能体与环境交互过程中的交互数据;交互数据包括当前己方观测数据、当前己方动作数据、当前对手观测数据、当前对手动作数据、第一环境奖励数据和下一步己方观测数据;将当前己方观测数据和当前己方动作数据输入对手建模模型,建模对手的确定性特征和不确定性特征得到模型输出;利用当前对手观测数据、当前对手动作数据、第一环境奖励数据和下一步己方观测数据,以及模型输出计算损失函数;基于损失函数优化模型得到训练后的模型;基于训练后的模型进行对手建模得到对手建模结果。本发明引入了确定性和不确定性混合的特征,从而有效地提高了对具有随机性行为的对手的建模能力。
技术关键词
不确定性特征
建模方法
解码器
编码器
损失函数优化
协方差矩阵
深度神经网络
非暂态计算机可读存储介质
优化器
处理器
建模装置
数据获取模块
计算机程序产品
存储器
策略
噪声
电子设备
参数