大语言模型和强化学习模型的协同方法和装置

正文

推荐专利

申请号：CN202410798640

申请日期：2024-06-20

公开号：CN118377848B

公开日期：2024-10-11

类型：发明专利

摘要

本公开涉及大语言模型领域，尤其涉及一种大语言模型和强化学习模型的协同方法和装置，确定开放世界的智能体对应的基本信息和所处的环境图像，将基本信息和知识库输入基于预设的需求金字塔训练得到的大语言模型中，在多个候选工具中选中并输出多个具有执行顺序的目标工具，并根据执行顺序最优的目标工具对应的强化学习模型，控制智能体执行相应的事件。其中，事件的执行过程包括以迭代的方式至少一次执行以下步骤：向强化学习模型输入环境图像得到操作指令，在智能体完成操作指令对应的操作后，重新确定智能体所处的环境图像。本公开通过大语言模型和强化学习模型一同实现对智能体的灵活控制，并提高了智能体对事件的处理效率。

技术关键词

强化学习模型大语言模型金字塔协同方法非易失性计算机可读存储介质计算机程序指令图像控制智能体处理器轨迹模块存储器电子设备

系统为您推荐了相关专利信息

基于大模型的领域自适应检查报告生成方法及系统

检查报告生成方法编码向量大语言模型患者关键字

预测下一个智能体任务的复合方法、电子设备及存储介质

语义向量数据决策电子设备分词

一种基于自适应上下文学习的因果事理图谱形成模型构建方法

事理图谱模型构建方法大语言模型三元组序列

一种跨境交易的审核方法、装置、设备及存储介质

数据分析工具字段数据格式审核规则多模态

一种可变形线性物体交叠交叉姿态的递进式识别方法及系统

语义分割网络掩膜物体线性图像

大语言模型和强化学习模型的协同方法和装置

站点导航

APP 下载