摘要
本申请涉及强化学习技术领域,特别涉及一种基于反思的语言模型强化学习训练扩展方法及装置,其中,方法包括:将目标自然语言推理问题输入至预先构建的大语言模型中,以生成大语言模型的目标反思思维链;基于目标反思思维链,对大语言模型进行强化学习训练扩展,以获取目标推理模型;评估目标推理模型在目标性能与生成长度之间的关系,以得到评估结果,以利用评估结果确定目标推理模型推理扩展的目标有效性。由此,解决了相关技术中对于从人类反馈中进行强化学习的扩展潜力和属性关注较少,导致对大规模强化学习训练的实践理解具有局限性,降低了大语言模型解决复杂问题的能力的问题。
技术关键词
自然语言推理
大语言模型
强化学习技术
输入模块
有效性
处理器
文本
扩展装置
计算机程序产品
模式
关系
信息熵
可读存储介质
存储器
电子设备
摘要
人类
系统为您推荐了相关专利信息
神经网络系统
保密通信方法
多模态
同步误差
控制器