一种基于多轮红队攻击的大模型安全对齐方法及装置

正文

推荐专利

申请号：CN202510609811

申请日期：2025-05-13

公开号：CN120146199B

公开日期：2025-07-18

类型：发明专利

摘要

本发明涉及自然语言处理技术领域，特别涉及一种基于多轮红队攻击的大模型安全对齐方法及装置。方法包括：基于思维引导的方式，结合攻击前思考数据集构建红队初始化数据集；基于红队初始化数据集对原始红队模型进行微调，获得红队初始模型；红队模型与目标模型进行多轮交互，并基于轨迹采样生成包含未来奖励的偏好数据对；基于偏好数据对优化目标模型和红队模型；基于优化后的目标模型和红队模型，获得安全对齐后的目标模。推动大型语言模型在实际应用中的进一步发展和普及。通过创新性的结构设计和技术手段，本发明能够更好地重塑大模型安全技术栈，为构建可信赖的人工智能系统提供关键支撑。

技术关键词

对齐方法数据计算机可读指令对齐设备策略性对齐装置轨迹人工智能系统策略更新模块自然语言意图处理器代表可读存储介质存储器模式参数