一种基于多轮红队攻击的大模型安全对齐方法及装置

AITNT
正文
推荐专利
一种基于多轮红队攻击的大模型安全对齐方法及装置
申请号:CN202510609811
申请日期:2025-05-13
公开号:CN120146199B
公开日期:2025-07-18
类型:发明专利
摘要
本发明涉及自然语言处理技术领域,特别涉及一种基于多轮红队攻击的大模型安全对齐方法及装置。方法包括:基于思维引导的方式,结合攻击前思考数据集构建红队初始化数据集;基于红队初始化数据集对原始红队模型进行微调,获得红队初始模型;红队模型与目标模型进行多轮交互,并基于轨迹采样生成包含未来奖励的偏好数据对;基于偏好数据对优化目标模型和红队模型;基于优化后的目标模型和红队模型,获得安全对齐后的目标模。推动大型语言模型在实际应用中的进一步发展和普及。通过创新性的结构设计和技术手段,本发明能够更好地重塑大模型安全技术栈,为构建可信赖的人工智能系统提供关键支撑。
技术关键词
对齐方法 数据 计算机可读指令 对齐设备 策略性 对齐装置 轨迹 人工智能系统 策略更新 模块 自然语言 意图 处理器 代表 可读存储介质 存储器 模式 参数
系统为您推荐了相关专利信息
1
一种变电站施工现场三维点云的移动目标识别与预警方法
变电站施工现场 预警方法 DBSCAN聚类算法 动态 三维点云数据
2
一种种苗养殖生长状况监测方法
生长预测模型 水文参数 长短期记忆网络 氧量 决策支持系统
3
一种识别加密数据流的方法及系统
数据流特征 伪随机数生成器 加密数据 数据流头部 数据流系统
4
车辆故障恢复方法、电子设备及介质
故障恢复方法 故障恢复策略 故障预测模型 历史故障数据 车辆
5
面向可重构模块化生产的过程管控系统及实现方法
面向可重构 管控系统 存储模块 精度 应力传感器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号