针对大语言模型转述攻击的基于句子语义的水印方法

正文

推荐专利

申请号：CN202410926631

申请日期：2024-07-10

公开号：CN118821086A

公开日期：2024-10-22

类型：发明专利

摘要

本发明公开了一种针对大语言模型转述攻击的基于句子语义的水印方法，在生成式大语言模型生成新的词语标记时，先根据输入标记序列生成词汇表中每个词语标记的对数概率，采用语义嵌入模型得到当前输入标记序列的语义嵌入向量，并将其投影至预先设置的向量空间，得到对应的投影语义嵌入向量，从中选取最小的若干元素序号构成绿色列表，对于词汇表中每个词语标记，如果属于绿色列表则根据预设的水印强度对其对数概率进行修正，如果不属于绿色列表则当前对数概率即为修正后的对数概率，根据修正后的对数概率选择新的词语标记，如此循环，生成水印文本。本发明通过生成绿色列表并指导新词语标记的生成逻辑，以抵抗对于大语言模型的转述攻击。

技术关键词

大语言模型水印方法标记词语语义列表序列文本水印检测生成水印元素采样方法强度分词逻辑

系统为您推荐了相关专利信息

一种面向异质图的图匹配方法、设备及介质

节点异质注意力机制表达式匹配网络

一种基于大数据的景区地质灾害监测方法及其系统

地质灾害监测方法映射关系表因子大数据特征值

一种基于SIFT算法的口腔图像分割方法、装置及介质

图像分割方法语义分割模型变换算法梯度方向直方图像素

一种基于数据分析的风管安装定位管理系统及方法

风管系统漏风量三维空间模型定位管理系统定位管理方法

一种基于OCR识别的微课程生成方法及服务器

知识资源库文档图像数据服务器教学故障场景

针对大语言模型转述攻击的基于句子语义的水印方法

站点导航

APP 下载