摘要
本说明书实施例公开了一种奖励预测模型训练和管控动作推荐模型优化方法、装置,首先,基于预采集的交易特征数据以及预先训练好的初始管控动作推荐模型,构建奖励训练数据;根据奖励训练数据对预构建的奖励预测模型进行监督学习,得到初始奖励预测模型;获取预设的辅助学习标签,辅助学习标签对应不同的学习任务,并根据辅助学习标签对初始奖励预测模型进行多任务学习,得到目标奖励预测模型。通过多任务学习得到的目标奖励预测模型,可以实现在强化学习过程中的奖励信号的预测,有效降低人工成本,提高奖励信号的预测效率,同时保证预测的奖励信号的合理性和有效性,提升奖励信号的可解释性。
技术关键词
交易特征
预测模型训练方法
模型优化方法
标签
多任务
损失函数优化
独立特征
信号
欺诈风险识别
分箱
网络
数据获取模块
策略更新
计算机程序产品
处理器
优化装置
非线性
系统为您推荐了相关专利信息
财务报表生成方法
企业内部业务系统
数据整合平台
指纹
映射配置文件
墙板
缺陷检测系统
板检测系统
动作指令系统
成像设备
岗位匹配方法
区块链存证
拆分算法
滑动时间窗口
特征提取模型