摘要
本发明公开了一种基于离线强化学习的风险管理系统,包括:离线数据集生成模块:将离线数据根据筛选策略和四元组数据格式生成离线数据集;序列数据生成模块:根据离线数据集训练监督学习模型,根据监督学习模型生成序列数据;风险重构模块:根据序列数据的变化值和训练数据计算风险调节值并以此重构风险函数;所述训练数据包括训练次数、训练时间、训练完成度的任一项或多项组合;最小风险策略生成模块:根据重构的风险函数计算最小化风险值,将最小化风险值输入监督学习模型,得到最小风险策略函数。本发明解决了策略试错成本高、与真实环境的交互效率低和策略优化效率低的问题。
技术关键词
监督学习模型
风险管理系统
生成序列数据
离线
策略
数据格式
重构模块
交通状态信息
车辆状态信息
深度神经网络
估计算法
安全气囊
后视镜
操纵杆
安全带