基于污染词元的大语言模型数据集保护方法、装置、电子设备、可读存储介质和计算机程序产品

正文

推荐专利

申请号：CN202511015316

申请日期：2025-07-23

公开号：CN120523965B

公开日期：2025-10-31

类型：发明专利

摘要

本申请公开一种基于污染词元的大语言模型数据集保护方法、装置、电子设备、可读存储介质和计算机程序产品，属于人工智能技术领域。该方法包括：对原始数据集每条数据的数据项统计生成污染数据统计模板，获取原始数据集的高频常用词和语法结构特性；生成包括高频常用词和污染词元的污染词元序列，其中，污染词元包括：对常用字符排列生成的现实不存在的自造词以及对应的词性；根据原始数据集的语法结构特性使用污染词元序列生成污染语句；按照污染数据统计模板中记录的存在概率，将污染语句填充到原始数据集每条数据相应的数据项，生成污染数据集；利用污染语句以及污染数据集对原始数据集进行污染，并存储污染位置，生成保护数据集。

技术关键词

语法结构数据项语句保护方法计算机程序产品大语言模型可读存储介质条目模板序列字符串分词电子设备过滤器人工智能技术指令处理器

系统为您推荐了相关专利信息

一种控制方法、装置和车辆

轨迹车辆挡位自动泊车功能计算机程序代码

一种自适应的移动设备快速充电保护方法及系统

移动设备快速充电电化学阻抗谱电池保护方法恒流充电

基于改进数字签名算法的消息加密方法及装置、电子设备

消息加密方法数字签名算法密钥生成哈希参数

测试用例的生成方法、计算机程序产品、电子设备及介质

生成方法计算机程序产品模版电子设备车辆测试

知识蒸馏方法、装置、设备和介质

机器翻译模型分词知识蒸馏方法学生文本

基于污染词元的大语言模型数据集保护方法、装置、电子设备、可读存储介质和计算机程序产品

站点导航

APP 下载