摘要
本发明提出了基于大语言模型的辅助分层强化学习训练方法及系统,包括:教师智能体和学生智能体收到相同的环境观察信息;教师智能体采用大语言模型,根据接收到的环境观察信息给出指导策略,指导策略被引入训练模块;学生智能体根据环境观察信息给出高层策略,当高层策略传入对应的低层策略选项πω时,πω将根据高层策略目标与环境产生一系列动作直到达到终止条件或超过最大任务步数;同时,低层策略输出的每个动作都将与环境交互并获得环境奖励,环境奖励累加和被视作当前高层动作获得的奖励,环境奖励累加和会被送入训练模块用于学生智能体向环境学习;训练模块将使用损失函数对学生智能体的高层策略网络进行更新。
技术关键词
大语言模型
分层强化学习
学生
教师
文本
模块
网络
代表
训练系统
索引
图像
处理器
计算机装置
编码策略
计算机程序产品
可读存储介质
存储器
数据
参数
系统为您推荐了相关专利信息
敏感关键词
文本质检方法
质检模型
分类网络
匹配网络
继电保护回路
电力系统
故障检测模型
设备状态参数
初始故障检测
大数据采集分析
咨询服务系统
生成决策建议
数据采集模块
数据存储模块
术语标准化
关键词
文本
非暂态计算机可读存储介质
语义
自动化生成系统
数据采集模块
互联网
正则化技术
超参数