一种基于动态约束强化学习的大模型安全对齐方法

AITNT
正文
推荐专利
一种基于动态约束强化学习的大模型安全对齐方法
申请号:CN202411688975
申请日期:2024-11-25
公开号:CN119539057A
公开日期:2025-02-28
类型:发明专利
摘要
本申请提供一种基于动态约束强化学习的大模型安全对齐方法,所述方法包括:构建对话偏好数据集;基于所述对话偏好数据集分别对初始奖励模型和初始成本模型进行训练,得到训练好的奖励模型和训练好的成本模型;基于所述训练好的奖励模型和所述训练好的成本模型生成第一微调策略和第二微调策略;根据所述第一微调策略和/或第二微调策略对所述初始大语言模型进行更新,得到更新后的大语言模型。本申请通过构建好的对话偏好数据集分别对奖励模型和成本模型进行训练,通过训练好的奖励模型和成本模型生成第一微调策略和第二微调策略,从而对大语言模型进行更新,提高了大语言模型在安全性和有用性之间的平衡性。
技术关键词
大语言模型 策略 对齐方法 计算机程序产品 数据 动态 参数 处理器 对齐装置 存储器 可读存储介质 模块 因子 电子设备
系统为您推荐了相关专利信息
1
一种基于多核特征融合卷积神经网络的行人图像增强方法、装置和介质
融合卷积神经网络 图像增强方法 图像增强模型 原始图像数据 恶劣天气条件
2
一种基于气液热耦合模型的锂离子电池高效充电方法及系统
高效充电方法 锂离子电池 气液动力学模型 数据采集模块 电池表面温度
3
视频推荐方法及装置、设备和介质
历史交互信息 视频推荐方法 视频推荐装置 推荐技术 人工智能技术
4
一种套管插入管桩的控制方法
套管 随机森林模型 速度 实时图像 风速
5
一种基于AI的雷达信号分选方法及系统
雷达信号分选方法 雷达辐射源信号 密度聚类算法 监督学习算法 监督学习方法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号