摘要
本发明提供的基于强化学习的大语言模型安全保护防御方法和装置,属于人工智能安全防护领域。所述在大语言模型安全保护防御方法通过大语言模型的输入端阶段,通过强化学习训练一个重写模型,将原本的输入提示输入到重写模型中,得到直接过滤后的提示,将直接过滤后的提示输入到目标模型中得到安全响应,从而提高目标模型的鲁棒性;在模型的输出端阶段,通过强化学习训练一个反向翻译模型,将目标模型初次生成的响应输入到反向翻译模型中,得到间接过滤后的提示,将间接过滤后的提示再次输入到目标模型中得到安全的响应,从而进一步提高目标模型的鲁棒性。本发明涵盖了大语言模型输入端和输出端的防御,使得大语言模型的防御更加全面。
技术关键词
翻译模型
联合损失函数
大语言模型
数据
阶段
文本摘要模型
策略
存储计算机程序
鲁棒性
参数
表达式
序列
数学
存储器
模板
处理器
样本
语义
输入端
算法
系统为您推荐了相关专利信息
随机森林模型
地质灾害预测
山区
评价方法
拓扑网络
节点特征
任务分配方法
神经网络模型
邻居
物理传感器