摘要
本发明实施例提供一种基于注意力头的大语言模型功能分区探测方法及系统。该方法包括:利用包括对预设特定任务的输入语句、预期输出语句的训练数据仅对大语言模型中注意力头权重进行训练,在训练结束后,使用二值化函数对注意力头权重进行转换,得到对应大语言模型内各注意力头的注意力头掩码;通过调控注意力头掩码对大语言模型内各注意力头的输出进行掩码,以实现选择性的使用大语言模型内的注意力头,探测出未被掩码而被选择到的注意力头组成相互依赖的功能分区通路。本发明实施例通过选择注意力头使大模型选择性地执行任务,来解释被选择的注意力头所涉及的功能作用,还对大语言模型多功能性的机理做出了解释,使模型表现出功能性。
技术关键词
注意力
大语言模型
分区探测方法
语句
计算机程序产品
数据
探测系统
处理器通信
指令
解码
存储器
电子设备
模块
参数
系统为您推荐了相关专利信息
损伤检测方法
鸟巢
布谷鸟优化
训练卷积神经网络
影像
快速识别方法
裂缝
运动恢复结构
三角网格模型
三维重建方法
语义特征
跨模态
sigmoid函数
模型训练方法
局部图像特征
腋窝
超声造影
融合特征
特征提取单元
空间特征提取