一种面向中文生成大型语言模型的偏见攻击方法

AITNT
正文
推荐专利
一种面向中文生成大型语言模型的偏见攻击方法
申请号:CN202510033143
申请日期:2025-01-09
公开号:CN119938882A
公开日期:2025-05-06
类型:发明专利
摘要
本发明公开一种面向中文生成大型语言模型的偏见攻击方法,属于自然语言处理领域,用于文本对抗攻击,该方法包括获取偏见攻击所需数据集;利用数据集初始化偏见关联并设置优化的目标;然后通过基于适应性的搜索利来寻找流畅的对抗提示,适应性搜索利用了大模型预测下一个词元的概率分布和语义相似度过滤来提高对抗提示的隐蔽性;随后计算不同目标的Pareto前沿;并用面向偏见的选择策略选择有效的候选对抗提示;最后利用获得的对抗提示评估生成文本的偏见的鲁棒性。
技术关键词
面向中文 文本 自然语言 鲁棒性 策略 数据 语义
系统为您推荐了相关专利信息
1
基于大模型和微调的虚假信息及评论的自动检测与控制方法及系统
上下文特征 图像 大语言模型 矩阵 文本编码器
2
一种基于机器学习的金融交易风险评估方法、设备及介质
金融交易风险 指标 文本 数据 情绪特征
3
教学过程的摘要生成方法、装置、设备及存储介质
教学 DCNN模型 生成提示词 摘要生成方法 语音识别模型
4
一种单模组新型网关的实现方法
新型网关 服务器 模式 终端设备 自断电
5
中英文混合少儿英语对话数据集构建方法及教学系统
数据集构建方法 英语 强化学习算法 教学系统 模板
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号