摘要
本申请涉及一种问答模型的训练方法及装置、问答方法及装置、计算机设备、计算机可读存储介质和计算机程序产品。方法包括:构建训练集,训练集中具有已知的攻击类别标注的第一类别的提示词、和具有未知攻击类别的标注的第二类别的提示词;根据提示词训练初始奖励模型,得到奖励模型,奖励模型用于输出奖励信号;将提示词输入大语言模型中,输出得到预测回复数据,并将预测回复数据和提示词输入奖励模型中,得到针对预测回复数据的奖励信号;根据预测回复数据的奖励信号确定大语言模型的更新策略,基于更新策略更新大语言模型,得到训练后的问答模型。采用本方法能够提高问答模型针对已知攻击类别的识别精度,降低针对未知攻击类型的漏检率。
技术关键词
问答模型
大语言模型
构建训练集
问答方法
样本
策略更新
信号
数据
计算机程序产品
可读存储介质
计算机设备
问答装置
处理器
训练装置
模块
存储器
精度