摘要
本说明书实施例公开了一种模型的处理方法、装置及设备,该方法包括:获取用于对大语言模型进行模型训练的训练样本,大语言模型用于对目标业务进行风险评审处理;通过训练样本对大语言模型进行模型训练,得到训练后的大语言模型,将训练后的大语言模型部署到目标业务中,并基于训练后的大语言模型对用户执行目标业务进行风险评审处理,得到多个不同的目标风险评审结果;获取用户分别对每个目标风险评审结果的反馈信息,并基于反馈信息生成用于训练奖励模型的正负样本对,基于正负样本对对奖励模型进行训练;基于训练后的奖励模型和大语言模型,通过用户执行目标业务产生的数据对训练后的大语言模型进行微调,得到微调后的大语言模型。
技术关键词
大语言模型
风险
数据
指标
样本
日志
策略
模型训练模块
标识
覆盖率
处理器
分区
存储器
指令
系统为您推荐了相关专利信息
教育评价方法
教育智能
多模态
层级
非结构化特征
语音智能识别方法
农业病虫害
卷积神经网络模型
深度学习技术
样本