摘要
本发明公开了一种基于文本嵌入优化的文生图模型敏感内容过滤和防御方法,涉及大模型安全技术领域。该方法包括:准备正负样本数据集和普通数据集;调整文本编码器的参数并利用师生模型进行训练;使用普通数据集稳定文本编码器;设计一个综合损失函数,结合多个数据集进行训练优化以生成调整后的学生模型并通过文本嵌入生成最终的安全图像。本发明通过微调文本编码器,在处理包含敏感词汇的文本输入时,将这些敏感词汇的文本嵌入转换为对应良性词汇的文本嵌入并使用良性的文本嵌入来引导生成安全图像;在不改变模型生成能力的前提下避免文生图模型生成包含敏感色情或其他受版权保护的图像,实现对敏感内容的有效过滤、转换及防御。
技术关键词
文本编码器
样本
学生
大语言模型
教师
数据
概念
图像
定义
参数
对象
词语
语句
系统为您推荐了相关专利信息
解码器
网络拓扑结构特征
场景生成方法
输出告警信息
矩阵
智能清洗方法
应用层协议特征
智能清洗系统
融合策略
数据