摘要
本申请提供一种训练数据生成方法、模型训练方法及设备,该训练数据生成方法包括:基于提示词注入攻击方式和安全风险类型,生成攻击性用户请求;基于攻击性用户请求、提示词注入攻击方式以及安全风险类型,生成攻击性用户请求对应的各个回复文本;从攻击性用户请求对应的各个回复文本中,确定攻击性用户请求对应的安全回复文本;基于攻击性用户请求和攻击性用户请求对应的安全回复文本,生成训练数据;其中,训练数据用于训练问答模型。本申请能够提升问答模型抵御提示词注入攻击的能力。
技术关键词
训练数据生成方法
文本
问答模型
模型训练方法
生成训练数据
风险
强化学习策略
语义
重构
存储器
处理器
电子设备
信号
程序
样本
系统为您推荐了相关专利信息
语句
机器翻译系统训练
双语平行语料库
双语语料库
抽取算法
模型训练方法
电信网络
计算机执行指令
数据
学习器