摘要
本发明涉及大语言模型领域,提供了一种针对大语言模型生成文本的安全性保障方法。现有水印技术能检测文本是否来自特定模型,但无法追溯使用者身份,导致在文本被二次传播或篡改时无法追责。主要方案包括:基于松弛的红绿词典方法,在生成文本中嵌入统计信号,通过调整语言模型生成时的token采样概率,使模型倾向于选择绿色列表token;用户信息为手机号或身份证号,进行Base4编码,得到偏移量信息;在基础水印文本中,从第一个绿色token开始,每隔两个连续token位置,基于上下文生成近义词列表,并根据偏移量选择对应近义词进行替换,以隐式嵌入用户信息;通过检测基础水印,使用基于Transformer的序列去噪自编码器恢复文本,并根据替换位置和偏移量提取用户信息。
技术关键词
文本
近义词列表
身份证号
编码器
大语言模型
保障方法
解码器模型
水印检测
语义
基础
信息编码
词典
噪声
水印技术
特征提取器
数值