一种基于动态约束强化学习的大模型安全对齐方法

正文

推荐专利

申请号：CN202411688975

申请日期：2024-11-25

公开号：CN119539057A

公开日期：2025-02-28

类型：发明专利

摘要

本申请提供一种基于动态约束强化学习的大模型安全对齐方法，所述方法包括：构建对话偏好数据集；基于所述对话偏好数据集分别对初始奖励模型和初始成本模型进行训练，得到训练好的奖励模型和训练好的成本模型；基于所述训练好的奖励模型和所述训练好的成本模型生成第一微调策略和第二微调策略；根据所述第一微调策略和/或第二微调策略对所述初始大语言模型进行更新，得到更新后的大语言模型。本申请通过构建好的对话偏好数据集分别对奖励模型和成本模型进行训练，通过训练好的奖励模型和成本模型生成第一微调策略和第二微调策略，从而对大语言模型进行更新，提高了大语言模型在安全性和有用性之间的平衡性。

技术关键词

大语言模型策略对齐方法计算机程序产品数据动态参数处理器对齐装置存储器可读存储介质模块因子电子设备

系统为您推荐了相关专利信息

一种基于多核特征融合卷积神经网络的行人图像增强方法、装置和介质

融合卷积神经网络图像增强方法图像增强模型原始图像数据恶劣天气条件

一种基于气液热耦合模型的锂离子电池高效充电方法及系统

高效充电方法锂离子电池气液动力学模型数据采集模块电池表面温度

视频推荐方法及装置、设备和介质

历史交互信息视频推荐方法视频推荐装置推荐技术人工智能技术

一种套管插入管桩的控制方法

套管随机森林模型速度实时图像风速

一种基于AI的雷达信号分选方法及系统

雷达信号分选方法雷达辐射源信号密度聚类算法监督学习算法监督学习方法

一种基于动态约束强化学习的大模型安全对齐方法

站点导航

APP 下载