摘要
本发明提出一种结合深度强化学习和启发式算法的旅行商问题求解方法,包括:将学习改进启发式算法求解旅行商问题的任务定义为一个马尔可夫决策过程;设计一个基于Transformer的新模型M,使策略网络参数化,并引入一个动作丢弃机制来防止动作选择过拟合;提出一个结合模拟退火机制的深度强化学习方法(RL‑SA)来学习节点对操作算子的选择策略以实现改进2‑opt算法的性能;RL‑SA利用鲸鱼优化算法生成初始解来提高采样效率,并使用高斯扰动策略来解决强化学习中的稀疏奖励问题。本发明在TSPLIB数据集和真实的集装箱班轮航运数据集上均显著优于现有的基于学习的方法,并进一步缩小了与高度优化求解器之间的差距。
技术关键词
启发式算法
策略网络模型
鲸鱼优化算法
模拟退火算法
Softmax函数
位置更新
解码器
注意力
深度强化学习方法
矩阵
编码器
节点特征
强化学习算法
螺旋式
参数
序列
机制
系统为您推荐了相关专利信息
历史气象数据
订正方法
数字高程模型
注意力
Softmax函数
解混淆方法
抽象语法树
文档特征提取
计算机系统执行
预训练语言模型
混合整数规划模型
资源分配方法
深度强化学习
异构
集群