大语言模型增强的高效强化学习信用分配方法及装置

正文

推荐专利

申请号：CN202411475138

申请日期：2024-10-22

公开号：CN119443197A

公开日期：2025-02-14

类型：发明专利

摘要

本申请涉及强化学习技术领域，特别涉及一种大语言模型增强的高效强化学习信用分配方法及装置，其中，方法包括：利用目标大语言模型的先验知识获取目标环境信息中的潜在奖励；基于潜在奖励增强的回报分解方式，将潜在奖励转换为代理奖励；将代理奖励添加至强化学习训练中，以获得大语言模型增强的高效强化学习信用分配结果。由此，解决了相关技术中大语言模型的语言知识与特定任务所需的符号表示之间的存在差异，同时大语言模型推理中存在随机性和幻觉现象，导致模型的信任度较低，降低了强化学习系统的整体性能的问题。

技术关键词

大语言模型信用分配方法神经网络模型编码解码器强化学习系统强化学习技术处理器轨迹计算机程序产品分配装置转换单元可读存储介质存储器控制模块电子设备参数

系统为您推荐了相关专利信息

一种数据处理方法及其模型获取方法、装置、设备及介质

数据处理模型多模态特征融合特征多源异构数据跨模态

一种基于统一消息的时序特征融合用于药物-靶点结合亲和力的预测

时序特征亲和力蛋白质特征提取药物深度卷积神经网络

飞行器故障诊断方法、装置、设备及存储介质

飞行器故障诊断故障诊断模型策略诊断飞行器 BP神经网络模型

基于人工智能的音频评估方法、装置、计算机设备及介质

音频评估方法对抗性计算机可读指令编码样本

个性定制商品标签的生成方法、装置、设备及存储介质

商品特征定制商品多头注意力机制节点商品标签

大语言模型增强的高效强化学习信用分配方法及装置

站点导航

APP 下载