摘要
本发明公开了一种基于深度强化学习的大规模旅行商问题求解方法,包括:(1)将大规模旅行商问题建模为马尔科夫决策过程;(2)随机生成一系列大规模旅行商问题实例并进行数据增强,得到训练数据;(3)构建基于端到端深度强化学习的大规模旅行商问题求解模型架构,该模型包括编码器和解码器,编码器采用快速注意力机制作为注意力层,解码器使用一个特殊的上下文节点来表示当前的解码状态;(4)设计决策网络,训练模型;决策网络选择REINFORCE,利用深度强化学习方法中的对称性对REINFORCE算法进行改进;(5)利用训练好的模型进行旅行商问题求解,并对求解结果进行优化。本发明可以解决大规模旅行商问题求解中时间效率和内存占用的双重挑战。
技术关键词
深度强化学习方法
注意力机制
解码器
编码器
决策
动态更新
节点
网络
策略
数据
基线
算法
分块
指针
参数
内存
坐标
系统为您推荐了相关专利信息
风险评估方法
风险评估模型
数据
多层感知机
气象
腐蚀形貌
彩涂钢板
表面图像数据
物联网传感设备
支持向量机模型