摘要
本发明提供一种基于最大熵强化学习算法的模型训练方法及规划制导方法,包括:构建动作评论模型,动作评论模型包括行动网络模块和评论网络模块;动作评论模型根据状态向量得到决策过程向量组,状态向量为从预设环境中得到的;根据决策过程向量组,在最大化熵原则下更新行动网络模块和所述评论网络模块,输出最优策略结果。本发明在最大化熵原则下,避免对整体空间进行计算,大大减少了学习的复杂性。
技术关键词
网络模块
强化学习算法
模型训练方法
末制导算法
策略
制导方法
决策
训练智能体
SAC算法
随机梯度下降
规划
参数
代表
系统为您推荐了相关专利信息
配送方法
实时数据
空间利用率最大化
背包算法
层次聚类方法
运维管理方法
能源管理策略
数字孪生模型
地理位置信息
能耗
盾构隧道施工方法
三维地质建模软件
高精度传感器
钻孔取样技术
数据分析系统
协同优化控制方法
优化控制模型
电力系统
电压灵敏度分区
云端
监控光伏电站
多模态传感器
光伏组件接线盒
数字孪生模型
组件老化