摘要
本发明涉及一种基于强化学习的大模型推理游戏能力的优化方法,包括以下步骤:采用多人推理游戏的规则和逻辑进行大模型推理游戏能力训练,以搭建环境,环境包括角色分配、游戏阶段以及胜负判定条件,并进行环境奖励;大模型的每一个智能体将被建模为一个Player对象,智能体包含角色类型、存活状态、预定义的各阶段提示词以及游戏历史记录;通过多智能体之间的交互来构造对局数据;采用对局数据训练并优化大模型的推理能力。本发明让大模型在多智能体自主博弈的过程中进行强化学习,以实现在无额外数据的情况下大模型的自主提升,提升大模型在文本推理游戏中的表现,并将逻辑推理能力泛化至其他推理任务中。
技术关键词
游戏
阶段
策略
数据
格式
算法
逻辑
对象
文本
系统为您推荐了相关专利信息
逻辑功能模块
延时模块
时间测量方法
D触发器
电平
数据驱动场景
能量调控方法
管状区域
管状模型
功率
电网分区方法
轮廓系数
电压
灵敏度矩阵
故障场景
储能单元
效率提升方法
能量管理
云端服务器
构建预测模型
二维图像特征
神经网络模型
序列特征
分子
性质预测方法