摘要
本发明涉及智能决策技术领域,公开了基于强化学习的智能决策支持方法。该方法包括获取目标决策场景下含决策动作序列、环境状态序列及对应即时奖励信号的历史交互数据集合;将该数据集合输入状态特征提取网络进行时空特征编码,生成具时序关联性的状态特征向量集合;基于该集合构建决策动作空间映射表,表中记录各状态特征向量对应的候选决策动作及预期累积奖励;采用策略梯度算法对映射表动态更新,生成优化后的策略梯度参数集合;依此参数集合构建实时决策支持引擎,该引擎可响应环境状态变化并输出最优决策动作。该方法适配动态决策场景,助力高效输出贴合需求的决策结果。
技术关键词
智能决策支持
策略
梯度算法
特征提取网络
长短期记忆网络
动态更新
样本
智能决策技术
时序依赖关系
序列
流水线
数据
映射关系表
参数
场景
滑动窗口
系统为您推荐了相关专利信息
编码向量
空气净化系统
策略
语义关联度
光源驱动模块
金融数据安全
分级系统
多策略
分类模型构建
训练分类模型
智能充电管理方法
中央控制平台
智能充电管理系统
数据采集单元
数据处理单元