奖励预测模型训练和管控动作推荐模型优化方法、装置

AITNT
正文
推荐专利
奖励预测模型训练和管控动作推荐模型优化方法、装置
申请号:CN202410977913
申请日期:2024-07-19
公开号:CN119599731A
公开日期:2025-03-11
类型:发明专利
摘要
本说明书实施例公开了一种奖励预测模型训练和管控动作推荐模型优化方法、装置,首先,基于预采集的交易特征数据以及预先训练好的初始管控动作推荐模型,构建奖励训练数据;根据奖励训练数据对预构建的奖励预测模型进行监督学习,得到初始奖励预测模型;获取预设的辅助学习标签,辅助学习标签对应不同的学习任务,并根据辅助学习标签对初始奖励预测模型进行多任务学习,得到目标奖励预测模型。通过多任务学习得到的目标奖励预测模型,可以实现在强化学习过程中的奖励信号的预测,有效降低人工成本,提高奖励信号的预测效率,同时保证预测的奖励信号的合理性和有效性,提升奖励信号的可解释性。
技术关键词
交易特征 预测模型训练方法 模型优化方法 标签 多任务 损失函数优化 独立特征 信号 欺诈风险识别 分箱 网络 数据获取模块 策略更新 计算机程序产品 处理器 优化装置 非线性
系统为您推荐了相关专利信息
1
游戏机器人的训练方法、装置、设备及存储介质
游戏机器人 棋盘 融合特征 网络 数据
2
一种基于云计算的财务报表生成方法及系统
财务报表生成方法 企业内部业务系统 数据整合平台 指纹 映射配置文件
3
经由机器学习进行墙板缺陷检测
墙板 缺陷检测系统 板检测系统 动作指令系统 成像设备
4
一种操作票的语义解析与生成方法、系统、介质及设备
生成方法 语义 规则集 电网设备 图谱
5
一种基于数据分析的就业岗位匹配方法及系统
岗位匹配方法 区块链存证 拆分算法 滑动时间窗口 特征提取模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号