一种基于强化学习的大模型推理游戏能力的优化方法

正文

推荐专利

申请号：CN202510970186

申请日期：2025-07-15

公开号：CN120671852A

公开日期：2025-09-19

类型：发明专利

摘要

本发明涉及一种基于强化学习的大模型推理游戏能力的优化方法，包括以下步骤：采用多人推理游戏的规则和逻辑进行大模型推理游戏能力训练，以搭建环境，环境包括角色分配、游戏阶段以及胜负判定条件，并进行环境奖励；大模型的每一个智能体将被建模为一个Player对象，智能体包含角色类型、存活状态、预定义的各阶段提示词以及游戏历史记录；通过多智能体之间的交互来构造对局数据；采用对局数据训练并优化大模型的推理能力。本发明让大模型在多智能体自主博弈的过程中进行强化学习，以实现在无额外数据的情况下大模型的自主提升，提升大模型在文本推理游戏中的表现，并将逻辑推理能力泛化至其他推理任务中。

技术关键词

游戏阶段策略数据格式算法逻辑对象文本

系统为您推荐了相关专利信息

时间测量电路及时间测量方法

逻辑功能模块延时模块时间测量方法 D触发器电平

一种基于动态管状模型预测控制与数据驱动场景预测的多能微网实时能量调控方法

数据驱动场景能量调控方法管状区域管状模型功率

一种考虑无功-电压灵敏度及暂态电压特性的两阶段电网分区方法

电网分区方法轮廓系数电压灵敏度矩阵故障场景

一种结合能量管理的储能效率提升方法及系统

储能单元效率提升方法能量管理云端服务器构建预测模型

多模态分子性质预测方法、装置、设备、存储介质和计算机程序产品

二维图像特征神经网络模型序列特征分子性质预测方法

一种基于强化学习的大模型推理游戏能力的优化方法

站点导航

APP 下载