一种基于多视图个性化逆强化学习的时空行为预测方法

正文

推荐专利

申请号：CN202411643436

申请日期：2024-11-18

公开号：CN119599230B

公开日期：2025-12-30

类型：发明专利

摘要

本发明公开了一种基于多视图个性化逆强化学习的时空行为预测方法，涉及时空预测领域。本发明包括：从原始的配送员时空行为数据中提取空间多视图；将空间多视图输入到个性化对抗逆强化学习网络，包括生成器、判别器和值估计器，生成器包括多视图编码器和解码器，输入经过多视图编码器得到区域和点位表示，解码器输出配送员时空行为；判别器将预测和真实时空行为作为输入进行训练；值估计器计算当前状态的预期回报；生成器、判别器和值估计器交替训练。本发明引入多视图和个性化行为偏好到对抗逆强化学习网络，从历史行为数据中学习奖励函数并预测配送员的时空行为，增强模型的可解释性且提高时空行为预测的准确性。

技术关键词

强化学习网络拓扑图表达式节点特征输入解码器编码器地理位置信息连续特征离散特征多头注意力机制更新模型参数梯度下降算法数据定义

一种基于多视图个性化逆强化学习的时空行为预测方法

站点导航

APP 下载