摘要
本申请涉及强化学习技术领域,特别涉及一种大语言模型增强的高效强化学习信用分配方法及装置,其中,方法包括:利用目标大语言模型的先验知识获取目标环境信息中的潜在奖励;基于潜在奖励增强的回报分解方式,将潜在奖励转换为代理奖励;将代理奖励添加至强化学习训练中,以获得大语言模型增强的高效强化学习信用分配结果。由此,解决了相关技术中大语言模型的语言知识与特定任务所需的符号表示之间的存在差异,同时大语言模型推理中存在随机性和幻觉现象,导致模型的信任度较低,降低了强化学习系统的整体性能的问题。
技术关键词
大语言模型
信用分配方法
神经网络模型
编码
解码器
强化学习系统
强化学习技术
处理器
轨迹
计算机程序产品
分配装置
转换单元
可读存储介质
存储器
控制模块
电子设备
参数
系统为您推荐了相关专利信息
数据处理模型
多模态特征
融合特征
多源异构数据
跨模态
时序特征
亲和力
蛋白质特征提取
药物
深度卷积神经网络
飞行器故障诊断
故障诊断模型
策略
诊断飞行器
BP神经网络模型
商品特征
定制商品
多头注意力机制
节点
商品标签