基于强化学习的大语言模型安全保护防御方法和装置

正文

推荐专利

申请号：CN202511218345

申请日期：2025-08-28

公开号：CN120974512A

公开日期：2025-11-18

类型：发明专利

摘要

本发明提供的基于强化学习的大语言模型安全保护防御方法和装置，属于人工智能安全防护领域。所述在大语言模型安全保护防御方法通过大语言模型的输入端阶段，通过强化学习训练一个重写模型，将原本的输入提示输入到重写模型中，得到直接过滤后的提示，将直接过滤后的提示输入到目标模型中得到安全响应，从而提高目标模型的鲁棒性；在模型的输出端阶段，通过强化学习训练一个反向翻译模型，将目标模型初次生成的响应输入到反向翻译模型中，得到间接过滤后的提示，将间接过滤后的提示再次输入到目标模型中得到安全的响应，从而进一步提高目标模型的鲁棒性。本发明涵盖了大语言模型输入端和输出端的防御，使得大语言模型的防御更加全面。

技术关键词

翻译模型联合损失函数大语言模型数据阶段文本摘要模型策略存储计算机程序鲁棒性参数表达式序列数学存储器模板处理器样本语义输入端算法

系统为您推荐了相关专利信息

一种工程设计及规划模型的建立及配置方法

发电量水库水流模式水电站优化调度

利用近红外光谱快速测定烟油中烟碱含量的方法及系统

烟碱含量波长烟油样本连续投影算法

图像处理模型的训练方法及装置、图像处理方法及装置

图像处理模型时序特征样本分支网络

一种山区乡村道路网络风险性评价方法及系统

随机森林模型地质灾害预测山区评价方法拓扑网络

一种基于图神经网络和模仿学习的智能体任务分配方法

节点特征任务分配方法神经网络模型邻居物理传感器

基于强化学习的大语言模型安全保护防御方法和装置

站点导航

APP 下载