一种PER-自适应探索深度强化学习TSP/CVRP优化方法

正文

推荐专利

申请号：CN202511012459

申请日期：2025-07-22

公开号：CN120874955A

公开日期：2025-10-31

类型：发明专利

摘要

本发明涉及物流与供应链管理技术领域，具体为一种PER‑自适应探索深度强化学习TSP/CVRP优化方法，包括以下步骤：S1、构建包含节点特征、车辆状态及循环神经网络隐藏状态的状态空间，定义选择下一跳节点的离散动作空间；S2、利用循环神经网络编码历史路径序列的时序依赖关系，结合注意力机制生成聚焦关键节点信息的上下文向量；S3、采用优先经验回放机制，根据时序差分误差计算样本优先级，按优先级比例采样经验样本并引入重要性采样权重修正偏差；S4、实施两阶段自适应探索策略，根据训练阶段与智能体成功率动态调整探索率；S5、基于加权损失函数优化深度Q网络参数，实现旅行商问题与带容量约束车辆路径问题的求解。

技术关键词

深度强化学习加权损失函数时序依赖关系两阶段深度Q网络修正偏差供应链管理技术路径优化系统节点特征注意力机制神经网络单元退火策略样本误差控制模块

系统为您推荐了相关专利信息

低轨卫星协同的联邦学习空中聚合系统及联合调度方法

联合调度方法数据处理中心地面设备多波束训练数据量

压力传感器过滤变频器干扰源的定向降噪方法及系统

定向降噪方法压力传感器局部特征提取交叉注意力机制降噪模型

一种基于深度Q网络学习的SOC均衡控制方法、设备及介质

深度Q网络学习均衡控制方法仿真模型等效电路模型电力电子开关

一种AI虚拟人产品匹配优化方法及系统

匹配优化方法深度强化学习模型深度学习算法策略构建用户画像

一种麻醉面罩管内压力电动调节系统

麻醉面罩调节系统混合整数规划模型压力改进型蚁群算法

一种PER-自适应探索深度强化学习TSP/CVRP优化方法

站点导航

APP 下载