摘要
本发明提供一种基于知识遗忘的大模型对齐方法及装置,涉及自然语言处理技术领域。该方法包括:获取大语言模型内部的各个参数权重,对每个神经元计算重要性评分,对神经元进行排序,构建二值化知识遗忘掩码;根据排序结果确定知识遗忘层和遗忘模块;获取有害指令及有害响应,构建有害知识数据集;设定优化目标,根据二值化知识遗忘掩码、有害知识数据集、优化目标以及受限梯度上升算法对知识遗忘层和遗忘模块进行有害知识遗忘训练,得到训练好的大语言模型。本发明提出的CKU方法通过采用约束优化技术,将安全对齐任务转化为受限知识遗忘任务,精确地去除生成式大语言模型中不必要或有害的知识,同时确保模型的整体性能和效能得以保持。
技术关键词
对齐方法
计算机可读取存储介质
大语言模型
对齐装置
计算机可读指令
对齐设备
约束优化技术
数据
受限
样本
算法
参数
自然语言
处理器
标记
输出模块
存储器
效能
系统为您推荐了相关专利信息
融合图像特征
文本
语义向量
图像特征提取
加权特征
多模态特征
大语言模型
音频编码
文本
交叉注意力机制