摘要
本申请提供一种数据增强方法和装置,应用于网络安全技术领域,用于对测试集进行有效的数据增强,提高仿写文本的丰富性和适用性。该方法包括获取多个待检测文本;将每个待检测文本输入到大语言模型中进行处理,获取大语言模型输出的每个待检测文本的答复文本;按照第一预设规则对每个待检测文本的答复文本进行评估,得到每个待检测文本的第一评分;将每个待检测文本输入到评测模型中进行处理,获取评测模型对每个待检测文本的第二评分;基于每个待检测文本的第一评分和第二评分确定每个待检测文本的有害评分;获取有害评分大于预设阈值的至少一个待检测文本;对至少一个待检测文本进行仿写,得到至少一个仿写文本。
技术关键词
文本
大语言模型
句法结构
主题
网络安全技术
存储程序指令
可读存储介质
计算机
语义
数据
模块
存储器
逻辑
电子设备
处理器
系统为您推荐了相关专利信息
辅助判断方法
Word2Vec模型
分词
大语言模型
引入注意力机制
卷积神经网络模型
文本
图像
条件随机场模型
样本
商标图像检索方法
语义向量
实体链接技术
知识图谱推理
文本
回复生成方法
大语言模型
数据对齐模块
样本
生成系统
自然语言文本
无标签数据
模板
深度学习模型训练
可读存储介质