摘要
本发明公开了一种基于多视图个性化逆强化学习的时空行为预测方法,涉及时空预测领域。本发明包括:从原始的配送员时空行为数据中提取空间多视图;将空间多视图输入到个性化对抗逆强化学习网络,包括生成器、判别器和值估计器,生成器包括多视图编码器和解码器,输入经过多视图编码器得到区域和点位表示,解码器输出配送员时空行为;判别器将预测和真实时空行为作为输入进行训练;值估计器计算当前状态的预期回报;生成器、判别器和值估计器交替训练。本发明引入多视图和个性化行为偏好到对抗逆强化学习网络,从历史行为数据中学习奖励函数并预测配送员的时空行为,增强模型的可解释性且提高时空行为预测的准确性。
技术关键词
强化学习网络
拓扑图
表达式
节点特征
输入解码器
编码器
地理位置信息
连续特征
离散特征
多头注意力机制
更新模型参数
梯度下降算法
数据
定义