摘要
本发明公开了安全强化学习驱动的大语言模型安全决策智能体,该决策智能体包括:高层语义规划器,用于接收文本形式的目标与约束指令,同时接收环境的语言或视觉观测信号,输出文本格式化的安全风险信息与建议动作规划;低层动作执行器,用于接收环境的低维观测和语义编码,其中语义编码来自于文本嵌入转换后的高层语义规划器输出;低层动作执行器的策略网络输出最终的安全动作;训练对齐模块,用于优化策略网络与价值网络;通过环境交互收集的奖励与代价信号,反馈提示高层语义规划器,以及通过安全强化学习算法训练策略网络与价值网络的参数。本发明便于实现在完成给定文本目标的决策的同时,保证决策不会违反给定的文本安全约束。
技术关键词
对齐模块
决策
规划
强化学习算法
执行器
文本
语义
策略
智能体训练方法
拉格朗日方法
神经网络参数
风险
嵌入框架
预训练模型
信号
生成动作
指令