摘要
本发明涉及物流与供应链管理技术领域,具体为一种PER‑自适应探索深度强化学习TSP/CVRP优化方法,包括以下步骤:S1、构建包含节点特征、车辆状态及循环神经网络隐藏状态的状态空间,定义选择下一跳节点的离散动作空间;S2、利用循环神经网络编码历史路径序列的时序依赖关系,结合注意力机制生成聚焦关键节点信息的上下文向量;S3、采用优先经验回放机制,根据时序差分误差计算样本优先级,按优先级比例采样经验样本并引入重要性采样权重修正偏差;S4、实施两阶段自适应探索策略,根据训练阶段与智能体成功率动态调整探索率;S5、基于加权损失函数优化深度Q网络参数,实现旅行商问题与带容量约束车辆路径问题的求解。
技术关键词
深度强化学习
加权损失函数
时序依赖关系
两阶段
深度Q网络
修正偏差
供应链管理技术
路径优化系统
节点特征
注意力机制
神经网络单元
退火策略
样本
误差
控制模块
系统为您推荐了相关专利信息
联合调度方法
数据处理中心
地面设备
多波束
训练数据量
定向降噪方法
压力传感器
局部特征提取
交叉注意力机制
降噪模型
深度Q网络学习
均衡控制方法
仿真模型
等效电路模型
电力电子开关
匹配优化方法
深度强化学习模型
深度学习算法
策略
构建用户画像
麻醉面罩
调节系统
混合整数规划模型
压力
改进型蚁群算法