基于强化学习的大语言模型安全保护防御方法和装置

AITNT
正文
推荐专利
基于强化学习的大语言模型安全保护防御方法和装置
申请号:CN202511218345
申请日期:2025-08-28
公开号:CN120974512A
公开日期:2025-11-18
类型:发明专利
摘要
本发明提供的基于强化学习的大语言模型安全保护防御方法和装置,属于人工智能安全防护领域。所述在大语言模型安全保护防御方法通过大语言模型的输入端阶段,通过强化学习训练一个重写模型,将原本的输入提示输入到重写模型中,得到直接过滤后的提示,将直接过滤后的提示输入到目标模型中得到安全响应,从而提高目标模型的鲁棒性;在模型的输出端阶段,通过强化学习训练一个反向翻译模型,将目标模型初次生成的响应输入到反向翻译模型中,得到间接过滤后的提示,将间接过滤后的提示再次输入到目标模型中得到安全的响应,从而进一步提高目标模型的鲁棒性。本发明涵盖了大语言模型输入端和输出端的防御,使得大语言模型的防御更加全面。
技术关键词
翻译模型 联合损失函数 大语言模型 数据 阶段 文本摘要模型 策略 存储计算机程序 鲁棒性 参数 表达式 序列 数学 存储器 模板 处理器 样本 语义 输入端 算法
系统为您推荐了相关专利信息
1
一种工程设计及规划模型的建立及配置方法
发电量 水库 水流 模式 水电站优化调度
2
利用近红外光谱快速测定烟油中烟碱含量的方法及系统
烟碱含量 波长 烟油 样本 连续投影算法
3
图像处理模型的训练方法及装置、图像处理方法及装置
图像处理模型 时序特征 样本 分支 网络
4
一种山区乡村道路网络风险性评价方法及系统
随机森林模型 地质灾害预测 山区 评价方法 拓扑网络
5
一种基于图神经网络和模仿学习的智能体任务分配方法
节点特征 任务分配方法 神经网络模型 邻居 物理传感器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号