摘要
本发明公开了一种面向偏见内容的大语言模型知识编辑方法,包括以下步骤:获取待修正偏见类型的测试文本集,所述测试文本集中包括包括具有待修正偏见类型的有偏见文本和对应的无偏见文本;依次将所述无偏见文本和有偏见文本输入待修正的大语言模型中,同时依次获得所述大语言模型各偏见层的参数,所述偏见层的参数包括前馈神经网络FFN中各层的输出和多头自注意力MHSA的权重;根据各偏见层的参数计算得到各偏见层在无偏见文本时相对于有偏见文本时的偏离程度;根据所述偏离程度确定出至少一个与该待修正偏见类型对应的目标层;对大语言模型参数进行调整。其通过通过动态分析偏见传播路径,结合激活差异和梯度反向传播,精准识别目标层,提高对偏见修正的准确性。
技术关键词
知识编辑方法
文本
大语言模型
前馈神经网络
参数
指数衰减函数
矩阵
注意力
钩子
系统为您推荐了相关专利信息
无人艇编队
云台相机
转向控制器
坐标误差
运动控制器
电子病历数据
电子病历信息
风险评估方法
GBDT算法
因子
人工智能模型
微纳结构
拟合算法
参数
模型训练方法
联合仿真方法
嵌入式计算机
数字孪生
仿真模型
资源特征