基于大语言模型的辅助分层强化学习训练方法及系统

正文

推荐专利

申请号：CN202411684419

申请日期：2024-11-22

公开号：CN119514640B

公开日期：2025-10-28

类型：发明专利

摘要

本发明提出了基于大语言模型的辅助分层强化学习训练方法及系统，包括：教师智能体和学生智能体收到相同的环境观察信息；教师智能体采用大语言模型，根据接收到的环境观察信息给出指导策略，指导策略被引入训练模块；学生智能体根据环境观察信息给出高层策略，当高层策略传入对应的低层策略选项πω时，πω将根据高层策略目标与环境产生一系列动作直到达到终止条件或超过最大任务步数；同时，低层策略输出的每个动作都将与环境交互并获得环境奖励，环境奖励累加和被视作当前高层动作获得的奖励，环境奖励累加和会被送入训练模块用于学生智能体向环境学习；训练模块将使用损失函数对学生智能体的高层策略网络进行更新。

技术关键词

大语言模型分层强化学习学生教师文本模块网络代表训练系统索引图像处理器计算机装置编码策略计算机程序产品可读存储介质存储器数据参数

系统为您推荐了相关专利信息

文本质检方法、装置、设备及计算机可读存储介质

敏感关键词文本质检方法质检模型分类网络匹配网络

一种继电保护回路的故障检测方法及系统

继电保护回路电力系统故障检测模型设备状态参数初始故障检测

一种基于大数据采集分析的咨询服务系统

大数据采集分析咨询服务系统生成决策建议数据采集模块数据存储模块

术语标准化方法、装置、电子设备和存储介质

术语标准化关键词文本非暂态计算机可读存储介质语义

剧本自动化生成系统

自动化生成系统数据采集模块互联网正则化技术超参数

基于大语言模型的辅助分层强化学习训练方法及系统

站点导航

APP 下载