一种面向中文生成大型语言模型的偏见攻击方法

正文

推荐专利

申请号：CN202510033143

申请日期：2025-01-09

公开号：CN119938882A

公开日期：2025-05-06

类型：发明专利

摘要

本发明公开一种面向中文生成大型语言模型的偏见攻击方法，属于自然语言处理领域，用于文本对抗攻击，该方法包括获取偏见攻击所需数据集；利用数据集初始化偏见关联并设置优化的目标；然后通过基于适应性的搜索利来寻找流畅的对抗提示，适应性搜索利用了大模型预测下一个词元的概率分布和语义相似度过滤来提高对抗提示的隐蔽性；随后计算不同目标的Pareto前沿；并用面向偏见的选择策略选择有效的候选对抗提示；最后利用获得的对抗提示评估生成文本的偏见的鲁棒性。

技术关键词

面向中文文本自然语言鲁棒性策略数据语义

系统为您推荐了相关专利信息

基于大模型和微调的虚假信息及评论的自动检测与控制方法及系统

上下文特征图像大语言模型矩阵文本编码器

一种基于机器学习的金融交易风险评估方法、设备及介质

金融交易风险指标文本数据情绪特征

教学过程的摘要生成方法、装置、设备及存储介质

教学 DCNN模型生成提示词摘要生成方法语音识别模型

一种单模组新型网关的实现方法

新型网关服务器模式终端设备自断电

中英文混合少儿英语对话数据集构建方法及教学系统

数据集构建方法英语强化学习算法教学系统模板

一种面向中文生成大型语言模型的偏见攻击方法

站点导航

APP 下载