摘要
本申请实施例涉及大模型推理技术领域,公开了一种形式空间中的元推理方法、系统、设备及介质。通过元推理智能体对当前上下文和推理引擎的反馈进行处理,提供元推理动作;通过推理智能体对所述元推理动作进行处理,生成可执行的形式化语言;通过形式化推理引擎执行所述形式化语言,并将执行结果以文字形式反馈给所述元推理智能体;采用强化学习对所述元推理智能体进行训练,其中,强化学习的状态表示包括所述形式化语言、执行结果的反馈和问题的原始描述,奖励函数根据所述执行结果进行计算。可以至少用以解决现有大模型推理能力不足的技术问题。
技术关键词
生成可执行
状态监控器
推理方法
计算机程序指令
分层决策机制
推理技术
推理系统
电子设备
自然语言
处理器
介质
思路
规划
存储器
模块
系统为您推荐了相关专利信息
语料生成方法
训练语言模型
样本
计算机程序指令
大规模语料
像素点
阴影渲染方法
广度优先遍历
阴影渲染装置
RGB色彩空间
电池荷电状态预测
迁移学习模型
数据
计算机程序指令
粒子群算法