摘要
本发明涉及自然语言处理技术领域,特别涉及一种基于多轮红队攻击的大模型安全对齐方法及装置。方法包括:基于思维引导的方式,结合攻击前思考数据集构建红队初始化数据集;基于红队初始化数据集对原始红队模型进行微调,获得红队初始模型;红队模型与目标模型进行多轮交互,并基于轨迹采样生成包含未来奖励的偏好数据对;基于偏好数据对优化目标模型和红队模型;基于优化后的目标模型和红队模型,获得安全对齐后的目标模。推动大型语言模型在实际应用中的进一步发展和普及。通过创新性的结构设计和技术手段,本发明能够更好地重塑大模型安全技术栈,为构建可信赖的人工智能系统提供关键支撑。
技术关键词
对齐方法
数据
计算机可读指令
对齐设备
策略性
对齐装置
轨迹
人工智能系统
策略更新
模块
自然语言
意图
处理器
代表
可读存储介质
存储器
模式
参数
系统为您推荐了相关专利信息
变电站施工现场
预警方法
DBSCAN聚类算法
动态
三维点云数据
生长预测模型
水文参数
长短期记忆网络
氧量
决策支持系统
数据流特征
伪随机数生成器
加密数据
数据流头部
数据流系统
故障恢复方法
故障恢复策略
故障预测模型
历史故障数据
车辆