摘要
本申请涉及强化学习技术领域,提供了一种基于大语言模型和强化学习的决策支持系统及方法,其首先获取强化学习的源状态表征,并利用外部知识库对其进行数据增强,随后将增强后的状态表征转换为预设大语言模型的状态表征,接着将该状态表征输入预设大语言模型以生成强化学习智能体增强的状态表征函数和内在奖励函数,基于这两个函数更新维护利普西茨数组,以产生满足平滑条件的状态表征,最后,将满足条件的状态表征输入分类器决策模型,得出决策结果。这样,通过引入外部信息,有助于提升强化学习的源状态表征质量,从而提高智能体的决策能力和适应性。
技术关键词
编码向量
语义
大语言模型
决策支持方法
条目
决策支持系统
转换器结构
隐式特征
Sigmoid函数
分类器决策
强化学习技术
自然语言
数据收集模块
矩阵
度量
系统为您推荐了相关专利信息
识别植物
三维重建模型
颜色
图像重建
注意力机制
穴位
信息展示区域
大语言模型
图像用户界面
演练方法