摘要
本发明公开一种基于强化学习策略模型的可控文本水印嵌入方法,构建强化学习策略模型,通过强化学习策略模型对大语言模型的token输出进行控制;在强化学习策略模型的策略控制下,基于水印嵌入策略对输出文本进行水印嵌入,形成带有隐藏信息的候选token序列。本发明通过引入基于奖励函数的策略网络对大语言模型生成过程进行token级别的动态干预,同时融合词汇替换、语法扰动与结构附加等多种嵌入方式,并以水印检测器提供反馈信号以实现端到端闭环优化,从而在不修改语言模型主结构的前提下显著提高文本水印的自然性、鲁棒性与可检测性,并具备良好的部署灵活性和溯源能力。
技术关键词
强化学习策略
水印嵌入方法
水印检测器
后处理模块
比特流
序列
sigmoid函数
生成文本内容
语义
水印嵌入器
编码
HTTP请求
BERT模型
身份
扰动技术
构建训练集