一种针对大语言模型生成文本的安全性保障方法

正文

推荐专利

申请号：CN202510998307

申请日期：2025-07-21

公开号：CN120524471B

公开日期：2025-09-23

类型：发明专利

摘要

本发明涉及大语言模型领域，提供了一种针对大语言模型生成文本的安全性保障方法。现有水印技术能检测文本是否来自特定模型，但无法追溯使用者身份，导致在文本被二次传播或篡改时无法追责。主要方案包括：基于松弛的红绿词典方法，在生成文本中嵌入统计信号，通过调整语言模型生成时的token采样概率，使模型倾向于选择绿色列表token；用户信息为手机号或身份证号，进行Base4编码，得到偏移量信息；在基础水印文本中，从第一个绿色token开始，每隔两个连续token位置，基于上下文生成近义词列表，并根据偏移量选择对应近义词进行替换，以隐式嵌入用户信息；通过检测基础水印，使用基于Transformer的序列去噪自编码器恢复文本，并根据替换位置和偏移量提取用户信息。

技术关键词

文本近义词列表身份证号编码器大语言模型保障方法解码器模型水印检测语义基础信息编码词典噪声水印技术特征提取器数值

一种针对大语言模型生成文本的安全性保障方法

站点导航

APP 下载