奖励预测模型训练和管控动作推荐模型优化方法、装置

正文

推荐专利

申请号：CN202410977913

申请日期：2024-07-19

公开号：CN119599731A

公开日期：2025-03-11

类型：发明专利

摘要

本说明书实施例公开了一种奖励预测模型训练和管控动作推荐模型优化方法、装置，首先，基于预采集的交易特征数据以及预先训练好的初始管控动作推荐模型，构建奖励训练数据；根据奖励训练数据对预构建的奖励预测模型进行监督学习，得到初始奖励预测模型；获取预设的辅助学习标签，辅助学习标签对应不同的学习任务，并根据辅助学习标签对初始奖励预测模型进行多任务学习，得到目标奖励预测模型。通过多任务学习得到的目标奖励预测模型，可以实现在强化学习过程中的奖励信号的预测，有效降低人工成本，提高奖励信号的预测效率，同时保证预测的奖励信号的合理性和有效性，提升奖励信号的可解释性。

技术关键词

交易特征预测模型训练方法模型优化方法标签多任务损失函数优化独立特征信号欺诈风险识别分箱网络数据获取模块策略更新计算机程序产品处理器优化装置非线性

系统为您推荐了相关专利信息

游戏机器人的训练方法、装置、设备及存储介质

游戏机器人棋盘融合特征网络数据

一种基于云计算的财务报表生成方法及系统

财务报表生成方法企业内部业务系统数据整合平台指纹映射配置文件

经由机器学习进行墙板缺陷检测

墙板缺陷检测系统板检测系统动作指令系统成像设备

一种操作票的语义解析与生成方法、系统、介质及设备

生成方法语义规则集电网设备图谱

一种基于数据分析的就业岗位匹配方法及系统

岗位匹配方法区块链存证拆分算法滑动时间窗口特征提取模型

奖励预测模型训练和管控动作推荐模型优化方法、装置

站点导航

APP 下载