摘要
本发明提供一种大语言模型安全对齐训练方法、装置、电子设备及介质,涉及人工智能领域。该方法包括:收集有害数据集并添加到训练数据中,有害数据集中的每个元素包括有害问题及与有害问题对应的有害回答;统计目标大语言模型被训练前生成有害问题生成对应的有害回答的概率;利用训练数据对目标大语言模型进行迭代训练;在每轮迭代完成后统计目标大语言模型生成有害问题及对应的有害回答的概率;基于统计的概率计算第一损失;利用第一损失的梯度对目标大语言模型的参数进行优化,并返回利用训练数据对目标大语言模型进行迭代训练的步骤直至迭代训练完成。本发明的方案能够让大语言模型充分遗忘有害知识,提升模型泛化能力。
技术关键词
大语言模型
数据
元素
sigmoid函数
电子设备
超参数
处理器
模块
训练装置
存储器
介质
程序
系统为您推荐了相关专利信息
纯水冷却系统
数据
维特比算法
稳态
生成对抗网络模型
检控系统
数据处理模块
非线性动力学特征
排放系统
燃油系统