策略模型的训练方法、装置、计算机设备及存储介质

正文

推荐专利

申请号：CN202510782184

申请日期：2025-06-12

公开号：CN120278215B

公开日期：2025-09-02

类型：发明专利

摘要

本申请提供一种策略模型的训练方法、装置、计算机设备及存储介质。其中，该方法包括：获取第一环境状态，并将所述第一环境状态输入至待训练的策略模型，得到与所述第一环境状态对应的第一动作；利用预先训练的大语言模型对所述第一环境状态和所述第一动作进行处理，得到与所述第一动作对应的安全指示信号；所述安全指示信号用于指示在所述第一环境状态下执行所述第一动作是否安全；以及基于所述第一动作与环境进行交互，得到第二环境状态以及奖励；基于所述第一环境状态、第一动作、安全指示信号、第二环境状态、以及奖励构成交互数据，并基于所述交互数据训练所述待训练的策略模型，得到目标策略模型。

技术关键词

周期策略参数网络架构信号计算机设备数据存储自然语言大语言模型机制处理器模块训练装置可读存储介质存储器程序

策略模型的训练方法、装置、计算机设备及存储介质

站点导航

APP 下载