安全强化学习驱动的大语言模型安全决策智能体

AITNT
正文
推荐专利
安全强化学习驱动的大语言模型安全决策智能体
申请号:CN202511179405
申请日期:2025-08-22
公开号:CN120688552B
公开日期:2025-12-12
类型:发明专利
摘要
本发明公开了安全强化学习驱动的大语言模型安全决策智能体,该决策智能体包括:高层语义规划器,用于接收文本形式的目标与约束指令,同时接收环境的语言或视觉观测信号,输出文本格式化的安全风险信息与建议动作规划;低层动作执行器,用于接收环境的低维观测和语义编码,其中语义编码来自于文本嵌入转换后的高层语义规划器输出;低层动作执行器的策略网络输出最终的安全动作;训练对齐模块,用于优化策略网络与价值网络;通过环境交互收集的奖励与代价信号,反馈提示高层语义规划器,以及通过安全强化学习算法训练策略网络与价值网络的参数。本发明便于实现在完成给定文本目标的决策的同时,保证决策不会违反给定的文本安全约束。
技术关键词
对齐模块 决策 规划 强化学习算法 执行器 文本 语义 策略 智能体训练方法 拉格朗日方法 神经网络参数 风险 嵌入框架 预训练模型 信号 生成动作 指令
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号