摘要
本发明公开了一种基于知识图谱的领域大模型有害提示词生成方法,包括:基于构建的风险知识图谱对通用有害提示词数据集进行筛选得到种子有害提示词库;对领域语料库进行处理得到嵌入式上下文;基于种子有害提示词、风险实体、嵌入式上下文和示例,通过合成模型生成候选有害提示词,并通过毒性指标进行清洗增强得到高风险有害提示词加入种子有害提示词库;基于种子有害提示词与风险实体的语义相关度、以及种子有害提示词的毒性评分筛选出下一轮的提示词输入,构建迭代更新的领域有害提示词数据集。本发明具备高自动化、多维评估、可控生成等特性,可实现多轮人机协同提示词构造,显著提升大语言模型在特定应用领域的红队演练效率与安全测试质量。
技术关键词
生成方法
种子
语义相关度
图谱
实体
高风险
节点
大语言模型
概念
开放知识库
数据
人机协同
语义标签
主题
语义向量
指标
文本
样本
系统为您推荐了相关专利信息
异常检测方法
调度自动化系统
模式
实体
静态代码分析
房屋框架结构
场景生成方法
自然语言
房间
词嵌入向量
傅里叶锁模激光器
光电振荡器
光放大器
光频梳
光纤隔离器