摘要
本发明公开了一种代收付限流策略模型训练及应用方法、装置、电子设备及存储介质。所述代收付限流策略模型训练方法包括:依据代收付限流策略模型训练所需的目标代收付数据,执行奖励函数定义训练任务;依据所述奖励函数定义训练任务得到的奖励函数,控制所述代收付限流策略模型执行代收付限流策略预测训练任务;依据所述奖励函数定义训练任务以及代收付限流策略预测训练任务,对所述代收付限流策略模型进行参数调整,以得到收敛的代收付限流策略模型。采用本方案,使用深度强化学习算法来构建代收付限流策略模型,自动学习代收付业务交易类型以及代收付企业级别等多维数据,输出适合系统当前状态最优的限流策略。
技术关键词
策略
模型训练方法
定义
模型训练装置
失败原因数据
深度强化学习算法
数据库连接池
数据对系统
数据输入模块
周期性特征
网络吞吐量
模型训练模块
因子
参数
时序
指标
企业
电子设备
系统为您推荐了相关专利信息
大语言模型
强化学习算法
指令优化方法
自动问答系统
摘要
动态规划模型
管控方法
多模态
有向无环图
客户流失风险
时间差
计算机程序产品
策略
异常点
可读存储介质
智能网联车辆
深度强化学习模型
路口交通灯
协同控制方法
车道