摘要
本发明提供一种基于强化学习的车险准备金动态计算方法及装置,所述方法包括:S1、智能驾驶背景下对车险准备金的设计和优化进行分析,优化目标为最小化准备金不足风险和最大化资金利用效率;S2、重构所述优化目标,包括设计目标优化强化学习模型的状态空间、动作空间和奖励函数;S3、以最大化累计折扣奖励的同时最大化策略的熵为准则,训练所述目标优化强化学习模型,并基于经验回放机制更新所述目标优化强化学习模型的评价网络和策略网络;S4、训练完成后,获得最优准备金,平衡资金充足性与使用效率。本发明可以对车险准备金进行动态计算。
技术关键词
强化学习模型
动态计算方法
资金
策略
网络
广义线性模型
风险
因子
修正偏差
重构模块
时序特征
状态更新
分析模块
机制
符号
天气
基准