一种基于可视化注意力的大语言模型毒性输出问责方法

正文

推荐专利

申请号：CN202510619163

申请日期：2025-05-14

公开号：CN120541179A

公开日期：2025-08-26

类型：发明专利

摘要

本发明公开了一种基于可视化注意力的大语言模型毒性输出问责方法，涉及大语言模型安全领域，从提示词的角度，对毒性输出进行问责；首先，从自然语言组分和结构的角度，分层分类的提取提示词中的问责特征；其次，通过级联注意力网络，构建毒性预测模型，依据提示词预测大语言模型的输出毒性值；最后，利用可视化注意力算法，从后往前，对各个层次的问责特征进行责任量化分配；本发明提供的方法能够从提示词的角度，对大模型毒性产生的因素进行问责，并提供了一种可解释的问责结果。

技术关键词

语句依存句法关系表达式情感特征注意力机制大语言模型语义依存分析网络依存句法分析算法自然语言实体级联矩阵参数分层

一种基于可视化注意力的大语言模型毒性输出问责方法

站点导航

APP 下载