摘要
本发明提供一种基于表情符号的大语言模型红队测试方法以及装置,涉及人工智能技术领域。其中,基于表情符号的大语言模型红队测试方法包括:获取原始红队测试问题;从原始红队测试问题中识别出敏感词汇;使用表征敏感词汇语义的第一表情符号,替换原始红队测试问题中的敏感词汇,得到第一待测试红队问题;向第一待测试红队问题嵌入第二表情符号,得到第二待测试红队问题;其中,第二表情符号用于将原始红队测试问题的主题进行去攻击化;利用第二待测试红队问题,对大语言模型进行红队测试。本发明可以高效、可靠地对大语言模型进行红队测试。
技术关键词
测试方法
大语言模型
钓鱼邮件
语义
处理器
人工智能技术
主题
计算机程序产品
测试模块
识别模块
存储器
模板
电子设备
指令
符号