摘要
本发明公开了一种基于参数敏感性量化的敏感提示词生成方法及系统,涉及人工智能安全技术领域,旨在解决黑盒大语言模型完整性验证中敏感测试样本生成困难的问题。该方法包括:获取原始大语言模型;构建综合参数敏感度指标,其融合了用以表征参数微小修改的微观敏感度,以及用以表征参数量化、剪枝等大幅修改的宏观敏感度,从而全面量化提示词的敏感性;在连续嵌入空间中,采用梯度优化算法以最大化该综合指标为目标进行迭代优化,并施加语义合理性等约束来保证生成提示词的自然流畅;最后,将优化后的嵌入向量映射回离散词元序列,获得最终的敏感提示词。本发明实现了低成本、自动化的测试样本生成,显著提升了云端模型完整性验证的准确性、效率与隐蔽性。
技术关键词
大语言模型
参数
指标
生成方法
模型剪枝
序列
生成系统
模块
语义
样本
算法
低成本
云端
系统为您推荐了相关专利信息
水电工程设备
三维可视化模型
参数
计算机可执行指令
实时监测方法
脂肪性肝病
风险预测方法
机器学习分类模型
多项生化指标
梯度提升模型