针对大语言模型转述攻击的基于句子语义的水印方法

AITNT
正文
推荐专利
针对大语言模型转述攻击的基于句子语义的水印方法
申请号:CN202410926631
申请日期:2024-07-10
公开号:CN118821086A
公开日期:2024-10-22
类型:发明专利
摘要
本发明公开了一种针对大语言模型转述攻击的基于句子语义的水印方法,在生成式大语言模型生成新的词语标记时,先根据输入标记序列生成词汇表中每个词语标记的对数概率,采用语义嵌入模型得到当前输入标记序列的语义嵌入向量,并将其投影至预先设置的向量空间,得到对应的投影语义嵌入向量,从中选取最小的若干元素序号构成绿色列表,对于词汇表中每个词语标记,如果属于绿色列表则根据预设的水印强度对其对数概率进行修正,如果不属于绿色列表则当前对数概率即为修正后的对数概率,根据修正后的对数概率选择新的词语标记,如此循环,生成水印文本。本发明通过生成绿色列表并指导新词语标记的生成逻辑,以抵抗对于大语言模型的转述攻击。
技术关键词
大语言模型 水印方法 标记 词语 语义 列表 序列 文本 水印检测 生成水印 元素 采样方法 强度 分词 逻辑
系统为您推荐了相关专利信息
1
一种面向异质图的图匹配方法、设备及介质
节点 异质 注意力机制 表达式 匹配网络
2
一种基于大数据的景区地质灾害监测方法及其系统
地质灾害监测方法 映射关系表 因子 大数据 特征值
3
一种基于SIFT算法的口腔图像分割方法、装置及介质
图像分割方法 语义分割模型 变换算法 梯度方向直方图 像素
4
一种基于数据分析的风管安装定位管理系统及方法
风管系统 漏风量 三维空间模型 定位管理系统 定位管理方法
5
一种基于OCR识别的微课程生成方法及服务器
知识资源库 文档图像数据 服务器 教学 故障场景
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号