针对大语言模型训练数据所有权的水印添加及验证方法

AITNT
正文
推荐专利
针对大语言模型训练数据所有权的水印添加及验证方法
申请号:CN202510845318
申请日期:2025-06-23
公开号:CN120930159A
公开日期:2025-11-11
类型:发明专利
摘要
本发明公开一种针对大语言模型预训练数据的水印添加及检测办法,构筑名称识别符库和稀有单词集库;随机从名称识别符库中选取水印的识别符,与从稀有单词集库中选取的若干个稀有单词结合,构筑成识别符‑特征符样式的备选词库,并将备选词填入预设的模板中;使用水印插入算法将构筑的水印随机插入个人文本中。构筑无效水印组成的空分布;对于单一待验证模型,利用空分布使用假设检验的方法得到真实水印被学习的置信度,置信度高于设定阈值,认定该待模型在预训练阶段或微调阶段使用了添加有水印的文本作为训练数据集。本发明实现在不同训练场景或使用场景下,准确、高效地验证个人文本被模型训练或滥用的情况,同时保证水印的鲁棒性与隐蔽性。
技术关键词
大语言模型 验证方法 文本 水印检测 令牌 数据 语句 阶段 计算机设备 检测办法 格式模板 可读存储介质 训练场景 统计特征 处理器 算法 样式 存储器
系统为您推荐了相关专利信息
1
基于图结构语义融合的端到端智能体的自动化构建方法
结构语义融合 自动化构建方法 语义图谱 工作流框架 上下文语境信息
2
基于大型语言模型在Text2SQL任务中的查询生成方法
查询生成方法 查询意图 自然语言文本 语句 实体
3
基于动态令牌的零接触式身份传递及免登验证⽅法及系统
动态令牌 验证方法 接触式 身份 服务器
4
基于国密算法的联合登录方法和登录装置
国密算法 访问第三方服务 令牌 客户端 服务端
5
可行驶区域的检测方法、系统、设备及可读存储介质
融合特征 非结构化道路 多任务 模态特征 文本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号