一种基于强化学习的大模型推理游戏能力的优化方法

AITNT
正文
推荐专利
一种基于强化学习的大模型推理游戏能力的优化方法
申请号:CN202510970186
申请日期:2025-07-15
公开号:CN120671852A
公开日期:2025-09-19
类型:发明专利
摘要
本发明涉及一种基于强化学习的大模型推理游戏能力的优化方法,包括以下步骤:采用多人推理游戏的规则和逻辑进行大模型推理游戏能力训练,以搭建环境,环境包括角色分配、游戏阶段以及胜负判定条件,并进行环境奖励;大模型的每一个智能体将被建模为一个Player对象,智能体包含角色类型、存活状态、预定义的各阶段提示词以及游戏历史记录;通过多智能体之间的交互来构造对局数据;采用对局数据训练并优化大模型的推理能力。本发明让大模型在多智能体自主博弈的过程中进行强化学习,以实现在无额外数据的情况下大模型的自主提升,提升大模型在文本推理游戏中的表现,并将逻辑推理能力泛化至其他推理任务中。
技术关键词
游戏 阶段 策略 数据 格式 算法 逻辑 对象 文本
系统为您推荐了相关专利信息
1
时间测量电路及时间测量方法
逻辑功能模块 延时模块 时间测量方法 D触发器 电平
2
一种基于动态管状模型预测控制与数据驱动场景预测的多能微网实时能量调控方法
数据驱动场景 能量调控方法 管状区域 管状模型 功率
3
一种考虑无功-电压灵敏度及暂态电压特性的两阶段电网分区方法
电网分区方法 轮廓系数 电压 灵敏度矩阵 故障场景
4
一种结合能量管理的储能效率提升方法及系统
储能单元 效率提升方法 能量管理 云端服务器 构建预测模型
5
多模态分子性质预测方法、装置、设备、存储介质和计算机程序产品
二维图像特征 神经网络模型 序列特征 分子 性质预测方法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号