针对大语言模型训练数据所有权的水印添加及验证方法

正文

推荐专利

申请号：CN202510845318

申请日期：2025-06-23

公开号：CN120930159A

公开日期：2025-11-11

类型：发明专利

摘要

本发明公开一种针对大语言模型预训练数据的水印添加及检测办法，构筑名称识别符库和稀有单词集库；随机从名称识别符库中选取水印的识别符，与从稀有单词集库中选取的若干个稀有单词结合，构筑成识别符‑特征符样式的备选词库，并将备选词填入预设的模板中；使用水印插入算法将构筑的水印随机插入个人文本中。构筑无效水印组成的空分布；对于单一待验证模型，利用空分布使用假设检验的方法得到真实水印被学习的置信度，置信度高于设定阈值，认定该待模型在预训练阶段或微调阶段使用了添加有水印的文本作为训练数据集。本发明实现在不同训练场景或使用场景下，准确、高效地验证个人文本被模型训练或滥用的情况，同时保证水印的鲁棒性与隐蔽性。

技术关键词

大语言模型验证方法文本水印检测令牌数据语句阶段计算机设备检测办法格式模板可读存储介质训练场景统计特征处理器算法样式存储器

系统为您推荐了相关专利信息

基于图结构语义融合的端到端智能体的自动化构建方法

结构语义融合自动化构建方法语义图谱工作流框架上下文语境信息

基于大型语言模型在Text2SQL任务中的查询生成方法

查询生成方法查询意图自然语言文本语句实体

基于动态令牌的零接触式身份传递及免登验证⽅法及系统

动态令牌验证方法接触式身份服务器

基于国密算法的联合登录方法和登录装置

国密算法访问第三方服务令牌客户端服务端

可行驶区域的检测方法、系统、设备及可读存储介质

融合特征非结构化道路多任务模态特征文本

针对大语言模型训练数据所有权的水印添加及验证方法

站点导航

APP 下载