摘要
本发明公开了一种大语言模型的提示词优化方法及装置,其中该方法包括:将越狱攻击指令集输入到待测的大语言模型中进行循环攻击,获取大语言模型的响应结果;根据大语言模型的响应结果计算评价指标,当评价指标超出预设阈值时,对大语言模型中的提示词进行更新;构建多策略防御模板,利用多策略防御模板对每一个越狱攻击指令的类型进行分析,确定每一个越狱攻击指令的类型,根据越狱攻击指令的类型,在多策略防御模板中匹配对应类型的防御策略,将防御策略转化为对应的防御提示词,将防御提示词输入到大语言模型中以优化更新大语言模型的防御提示词。本发明可以提升提示词更新的及时性和准确性,提升大语言模型的抵抗力和安全性。
技术关键词
大语言模型
多策略
生成对抗网络
模板
指令
滑动时间窗口
指标
计算机程序产品
模块
处理器
可读存储介质
优化装置
阶段
漏洞
频率
脚本
计算机设备
动态
语义
系统为您推荐了相关专利信息
语句
生成方法
计算机设备
测试用例生成装置
计算机程序产品