摘要
本申请提供一种策略模型的训练方法、装置、计算机设备及存储介质。其中,该方法包括:获取第一环境状态,并将所述第一环境状态输入至待训练的策略模型,得到与所述第一环境状态对应的第一动作;利用预先训练的大语言模型对所述第一环境状态和所述第一动作进行处理,得到与所述第一动作对应的安全指示信号;所述安全指示信号用于指示在所述第一环境状态下执行所述第一动作是否安全;以及基于所述第一动作与环境进行交互,得到第二环境状态以及奖励;基于所述第一环境状态、第一动作、安全指示信号、第二环境状态、以及奖励构成交互数据,并基于所述交互数据训练所述待训练的策略模型,得到目标策略模型。
技术关键词
周期
策略
参数
网络架构
信号
计算机设备
数据存储
自然语言
大语言模型
机制
处理器
模块
训练装置
可读存储介质
存储器
程序