基于污染词元的大语言模型数据集保护方法、装置、电子设备、可读存储介质和计算机程序产品

AITNT
正文
推荐专利
基于污染词元的大语言模型数据集保护方法、装置、电子设备、可读存储介质和计算机程序产品
申请号:CN202511015316
申请日期:2025-07-23
公开号:CN120523965B
公开日期:2025-10-31
类型:发明专利
摘要
本申请公开一种基于污染词元的大语言模型数据集保护方法、装置、电子设备、可读存储介质和计算机程序产品,属于人工智能技术领域。该方法包括:对原始数据集每条数据的数据项统计生成污染数据统计模板,获取原始数据集的高频常用词和语法结构特性;生成包括高频常用词和污染词元的污染词元序列,其中,污染词元包括:对常用字符排列生成的现实不存在的自造词以及对应的词性;根据原始数据集的语法结构特性使用污染词元序列生成污染语句;按照污染数据统计模板中记录的存在概率,将污染语句填充到原始数据集每条数据相应的数据项,生成污染数据集;利用污染语句以及污染数据集对原始数据集进行污染,并存储污染位置,生成保护数据集。
技术关键词
语法结构 数据项 语句 保护方法 计算机程序产品 大语言模型 可读存储介质 条目 模板 序列 字符串分词 电子设备 过滤器 人工智能技术 指令 处理器
系统为您推荐了相关专利信息
1
一种控制方法、装置和车辆
轨迹 车辆 挡位 自动泊车功能 计算机程序代码
2
一种自适应的移动设备快速充电保护方法及系统
移动设备快速充电 电化学阻抗谱 电池 保护方法 恒流充电
3
基于改进数字签名算法的消息加密方法及装置、电子设备
消息加密方法 数字签名算法 密钥 生成哈希 参数
4
测试用例的生成方法、计算机程序产品、电子设备及介质
生成方法 计算机程序产品 模版 电子设备 车辆测试
5
知识蒸馏方法、装置、设备和介质
机器翻译模型 分词 知识蒸馏方法 学生 文本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号