摘要
本申请公开一种基于污染词元的大语言模型数据集保护方法、装置、电子设备、可读存储介质和计算机程序产品,属于人工智能技术领域。该方法包括:对原始数据集每条数据的数据项统计生成污染数据统计模板,获取原始数据集的高频常用词和语法结构特性;生成包括高频常用词和污染词元的污染词元序列,其中,污染词元包括:对常用字符排列生成的现实不存在的自造词以及对应的词性;根据原始数据集的语法结构特性使用污染词元序列生成污染语句;按照污染数据统计模板中记录的存在概率,将污染语句填充到原始数据集每条数据相应的数据项,生成污染数据集;利用污染语句以及污染数据集对原始数据集进行污染,并存储污染位置,生成保护数据集。
技术关键词
语法结构
数据项
语句
保护方法
计算机程序产品
大语言模型
可读存储介质
条目
模板
序列
字符串分词
电子设备
过滤器
人工智能技术
指令
处理器
系统为您推荐了相关专利信息
移动设备快速充电
电化学阻抗谱
电池
保护方法
恒流充电
生成方法
计算机程序产品
模版
电子设备
车辆测试