摘要
本发明公开了一种基于可视化注意力的大语言模型毒性输出问责方法,涉及大语言模型安全领域,从提示词的角度,对毒性输出进行问责;首先,从自然语言组分和结构的角度,分层分类的提取提示词中的问责特征;其次,通过级联注意力网络,构建毒性预测模型,依据提示词预测大语言模型的输出毒性值;最后,利用可视化注意力算法,从后往前,对各个层次的问责特征进行责任量化分配;本发明提供的方法能够从提示词的角度,对大模型毒性产生的因素进行问责,并提供了一种可解释的问责结果。
技术关键词
语句
依存句法关系
表达式
情感特征
注意力机制
大语言模型
语义依存分析
网络
依存句法分析
算法
自然语言
实体
级联
矩阵
参数
分层