大语言模型安全对齐训练方法、装置、电子设备及介质

AITNT
正文
推荐专利
大语言模型安全对齐训练方法、装置、电子设备及介质
申请号:CN202410859925
申请日期:2024-06-28
公开号:CN118966299A
公开日期:2024-11-15
类型:发明专利
摘要
本发明提供一种大语言模型安全对齐训练方法、装置、电子设备及介质,涉及人工智能领域。该方法包括:收集有害数据集并添加到训练数据中,有害数据集中的每个元素包括有害问题及与有害问题对应的有害回答;统计目标大语言模型被训练前生成有害问题生成对应的有害回答的概率;利用训练数据对目标大语言模型进行迭代训练;在每轮迭代完成后统计目标大语言模型生成有害问题及对应的有害回答的概率;基于统计的概率计算第一损失;利用第一损失的梯度对目标大语言模型的参数进行优化,并返回利用训练数据对目标大语言模型进行迭代训练的步骤直至迭代训练完成。本发明的方案能够让大语言模型充分遗忘有害知识,提升模型泛化能力。
技术关键词
大语言模型 数据 元素 sigmoid函数 电子设备 超参数 处理器 模块 训练装置 存储器 介质 程序
系统为您推荐了相关专利信息
1
一种纯水冷却系统的电导率控制方法及系统
纯水冷却系统 数据 维特比算法 稳态 生成对抗网络模型
2
一种电数据的采集系统
电能表 控制模块 信号线 通信模块 供电模块
3
一种基于异构拓扑图与轻量级全局推理的机器人探索方法
拓扑图 异构 机器人 栅格 顶点
4
一种柴油发电机组预启检控系统
检控系统 数据处理模块 非线性动力学特征 排放系统 燃油系统
5
一种产品信息核对方法、装置、电子设备及存储介质
信息核对方法 图像获取装置 对象 异常数据 栈板
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号