安全强化学习驱动的大语言模型安全决策智能体

正文

推荐专利

申请号：CN202511179405

申请日期：2025-08-22

公开号：CN120688552B

公开日期：2025-12-12

类型：发明专利

摘要

本发明公开了安全强化学习驱动的大语言模型安全决策智能体，该决策智能体包括：高层语义规划器，用于接收文本形式的目标与约束指令，同时接收环境的语言或视觉观测信号，输出文本格式化的安全风险信息与建议动作规划；低层动作执行器，用于接收环境的低维观测和语义编码，其中语义编码来自于文本嵌入转换后的高层语义规划器输出；低层动作执行器的策略网络输出最终的安全动作；训练对齐模块，用于优化策略网络与价值网络；通过环境交互收集的奖励与代价信号，反馈提示高层语义规划器，以及通过安全强化学习算法训练策略网络与价值网络的参数。本发明便于实现在完成给定文本目标的决策的同时，保证决策不会违反给定的文本安全约束。

技术关键词

对齐模块决策规划强化学习算法执行器文本语义策略智能体训练方法拉格朗日方法神经网络参数风险嵌入框架预训练模型信号生成动作指令

安全强化学习驱动的大语言模型安全决策智能体

站点导航

APP 下载