基于反思的语言模型强化学习训练扩展方法及装置

正文

推荐专利

申请号：CN202510144398

申请日期：2025-02-10

公开号：CN120146142A

公开日期：2025-06-13

类型：发明专利

摘要

本申请涉及强化学习技术领域，特别涉及一种基于反思的语言模型强化学习训练扩展方法及装置，其中，方法包括：将目标自然语言推理问题输入至预先构建的大语言模型中，以生成大语言模型的目标反思思维链；基于目标反思思维链，对大语言模型进行强化学习训练扩展，以获取目标推理模型；评估目标推理模型在目标性能与生成长度之间的关系，以得到评估结果，以利用评估结果确定目标推理模型推理扩展的目标有效性。由此，解决了相关技术中对于从人类反馈中进行强化学习的扩展潜力和属性关注较少，导致对大规模强化学习训练的实践理解具有局限性，降低了大语言模型解决复杂问题的能力的问题。

技术关键词

自然语言推理大语言模型强化学习技术输入模块有效性处理器文本扩展装置计算机程序产品模式关系信息熵可读存储介质存储器电子设备摘要人类

系统为您推荐了相关专利信息

一种基于大语言模型的政策比对方法及系统

大语言模型比对方法列表样本数据

牙模型的磨耗程度编辑方法、装置、设备及存储介质

牙模型磨耗特征值拉普拉斯顶点

基于影响因子的电力领域数字化项目造价评审方法

因子语义理解模型评审方法项目造价

情感原因知识增强的多模态方面-情感对抽取方法及系统

图文计算机程序指令数据条件随机场文本

欺骗攻击下基于多模态惯性神经网络的保密通信方法

神经网络系统保密通信方法多模态同步误差控制器

基于反思的语言模型强化学习训练扩展方法及装置

站点导航

APP 下载