摘要
本发明提出基于深度强化学习的多目标部署快速优化方法。本发明创新性地提出了利用深度强化学习算法强大的环境理解能力和泛化能力处理复杂优化问题的思路,基于TD3算法构建的模型使智能体通过与环境交互学习优化决策策略。初步实验显示,该模型虽能较好理解环境,但前期学习效率低、策略收敛慢。为此,本发明又进一步提出了基于预训练的强化学习模型,通过传统优化算法提供预训练目标,加速学习过程并提高收敛质量。实验证明,预训练智能体在收敛速度和质量上均优于未经预训练的智能体。
技术关键词
深度强化学习算法
网络
训练智能体
智能体模型
强化学习模型
启发式算法
计算机
处理器
数据
可读存储介质
变量
存储器
策略
参数
电子设备
指令
思路
系统为您推荐了相关专利信息
内窥镜
图像分割网络
图像分割方法
混合编码器
电子设备
网络入侵检测方法
网络入侵检测模型
检测网络流量
样本
高维特征向量