摘要
本发明公开了一种基于值分布环境模型的策略评估系统及风险管控方法,包括:筛选离线数据模块:筛选离线数据并根据四元组数据格式生成离线数据集;基于值分布的奖赏值分布模型构建模块:根据值分布学习和四元组离线数据集建立损失函数,根据损失函数构建基于值分布的奖赏值分布模型;状态转移模型构建模块:根据四元组离线数据集训练状态转移模型;状态序列生成模块:根据奖赏值分布模型和状态转移模型生成状态序列;策略评估模块:评估状态序列的收益,根据状态序列的收益得到策略评估结果。本发明解决了目前策略评估方法中策略评估效率低、结果稳定性和可靠性不足的问题。
技术关键词
状态转移模型
评估系统
序列
离线
模型误差
风险管控方法
深度神经网络
策略评估方法
数据格式
交通状态信息
传播算法
数据模块
位点
累积分布函数
车辆状态信息
概率分布函数
模型预测值
安全带
系统为您推荐了相关专利信息
网络服务控制方法
联网设备
硬件序列号
网络通信模组
服务端
中央空调系统
监测方法
空调机组系统
数据
时序预测模型
流水车间调度
系统停机时间
划分方法
果蝇算法
批量