大语言模型安全对齐训练方法、装置、电子设备及介质

正文

推荐专利

申请号：CN202410859925

申请日期：2024-06-28

公开号：CN118966299A

公开日期：2024-11-15

类型：发明专利

摘要

本发明提供一种大语言模型安全对齐训练方法、装置、电子设备及介质，涉及人工智能领域。该方法包括：收集有害数据集并添加到训练数据中，有害数据集中的每个元素包括有害问题及与有害问题对应的有害回答；统计目标大语言模型被训练前生成有害问题生成对应的有害回答的概率；利用训练数据对目标大语言模型进行迭代训练；在每轮迭代完成后统计目标大语言模型生成有害问题及对应的有害回答的概率；基于统计的概率计算第一损失；利用第一损失的梯度对目标大语言模型的参数进行优化，并返回利用训练数据对目标大语言模型进行迭代训练的步骤直至迭代训练完成。本发明的方案能够让大语言模型充分遗忘有害知识，提升模型泛化能力。

技术关键词

大语言模型数据元素 sigmoid函数电子设备超参数处理器模块训练装置存储器介质程序

系统为您推荐了相关专利信息

一种纯水冷却系统的电导率控制方法及系统

纯水冷却系统数据维特比算法稳态生成对抗网络模型

一种电数据的采集系统

电能表控制模块信号线通信模块供电模块

一种基于异构拓扑图与轻量级全局推理的机器人探索方法

拓扑图异构机器人栅格顶点

一种柴油发电机组预启检控系统

检控系统数据处理模块非线性动力学特征排放系统燃油系统

一种产品信息核对方法、装置、电子设备及存储介质

信息核对方法图像获取装置对象异常数据栈板

大语言模型安全对齐训练方法、装置、电子设备及介质

站点导航

APP 下载