摘要
本申请提供一种基于动态约束强化学习的大模型安全对齐方法,所述方法包括:构建对话偏好数据集;基于所述对话偏好数据集分别对初始奖励模型和初始成本模型进行训练,得到训练好的奖励模型和训练好的成本模型;基于所述训练好的奖励模型和所述训练好的成本模型生成第一微调策略和第二微调策略;根据所述第一微调策略和/或第二微调策略对所述初始大语言模型进行更新,得到更新后的大语言模型。本申请通过构建好的对话偏好数据集分别对奖励模型和成本模型进行训练,通过训练好的奖励模型和成本模型生成第一微调策略和第二微调策略,从而对大语言模型进行更新,提高了大语言模型在安全性和有用性之间的平衡性。
技术关键词
大语言模型
策略
对齐方法
计算机程序产品
数据
动态
参数
处理器
对齐装置
存储器
可读存储介质
模块
因子
电子设备
系统为您推荐了相关专利信息
融合卷积神经网络
图像增强方法
图像增强模型
原始图像数据
恶劣天气条件
高效充电方法
锂离子电池
气液动力学模型
数据采集模块
电池表面温度
历史交互信息
视频推荐方法
视频推荐装置
推荐技术
人工智能技术
雷达信号分选方法
雷达辐射源信号
密度聚类算法
监督学习算法
监督学习方法