摘要
本发明公开了一种针对大语言模型转述攻击的基于句子语义的水印方法,在生成式大语言模型生成新的词语标记时,先根据输入标记序列生成词汇表中每个词语标记的对数概率,采用语义嵌入模型得到当前输入标记序列的语义嵌入向量,并将其投影至预先设置的向量空间,得到对应的投影语义嵌入向量,从中选取最小的若干元素序号构成绿色列表,对于词汇表中每个词语标记,如果属于绿色列表则根据预设的水印强度对其对数概率进行修正,如果不属于绿色列表则当前对数概率即为修正后的对数概率,根据修正后的对数概率选择新的词语标记,如此循环,生成水印文本。本发明通过生成绿色列表并指导新词语标记的生成逻辑,以抵抗对于大语言模型的转述攻击。
技术关键词
大语言模型
水印方法
标记
词语
语义
列表
序列
文本
水印检测
生成水印
元素
采样方法
强度
分词
逻辑
系统为您推荐了相关专利信息
地质灾害监测方法
映射关系表
因子
大数据
特征值
图像分割方法
语义分割模型
变换算法
梯度方向直方图
像素
风管系统
漏风量
三维空间模型
定位管理系统
定位管理方法