摘要
本发明公开一种面向中文生成大型语言模型的偏见攻击方法,属于自然语言处理领域,用于文本对抗攻击,该方法包括获取偏见攻击所需数据集;利用数据集初始化偏见关联并设置优化的目标;然后通过基于适应性的搜索利来寻找流畅的对抗提示,适应性搜索利用了大模型预测下一个词元的概率分布和语义相似度过滤来提高对抗提示的隐蔽性;随后计算不同目标的Pareto前沿;并用面向偏见的选择策略选择有效的候选对抗提示;最后利用获得的对抗提示评估生成文本的偏见的鲁棒性。
技术关键词
面向中文
文本
自然语言
鲁棒性
策略
数据
语义
系统为您推荐了相关专利信息
教学
DCNN模型
生成提示词
摘要生成方法
语音识别模型
数据集构建方法
英语
强化学习算法
教学系统
模板