基于最大熵强化学习算法的模型训练方法及规划制导方法

正文

推荐专利

申请号：CN202411075546

申请日期：2024-08-07

公开号：CN118607613B

公开日期：2024-12-24

类型：发明专利

摘要

本发明提供一种基于最大熵强化学习算法的模型训练方法及规划制导方法，包括：构建动作评论模型，动作评论模型包括行动网络模块和评论网络模块；动作评论模型根据状态向量得到决策过程向量组，状态向量为从预设环境中得到的；根据决策过程向量组，在最大化熵原则下更新行动网络模块和所述评论网络模块，输出最优策略结果。本发明在最大化熵原则下，避免对整体空间进行计算，大大减少了学习的复杂性。

技术关键词

网络模块强化学习算法模型训练方法末制导算法策略制导方法决策训练智能体 SAC算法随机梯度下降规划参数代表

系统为您推荐了相关专利信息

一种基于实时数据的农产品订单动态处理与配送方法

配送方法实时数据空间利用率最大化背包算法层次聚类方法

基于CIM的智慧园区运维管理方法、系统和介质

运维管理方法能源管理策略数字孪生模型地理位置信息能耗

多变土层正面大阻力的地面隆起盾构隧道施工方法

盾构隧道施工方法三维地质建模软件高精度传感器钻孔取样技术数据分析系统

一种含光伏的配电网电压云边协同优化控制方法

协同优化控制方法优化控制模型电力系统电压灵敏度分区云端

实时监控光伏电站运行状态的方法及系统

监控光伏电站多模态传感器光伏组件接线盒数字孪生模型组件老化

基于最大熵强化学习算法的模型训练方法及规划制导方法

站点导航

APP 下载