基于反思的语言模型强化学习训练扩展方法及装置

AITNT
正文
推荐专利
基于反思的语言模型强化学习训练扩展方法及装置
申请号:CN202510144398
申请日期:2025-02-10
公开号:CN120146142A
公开日期:2025-06-13
类型:发明专利
摘要
本申请涉及强化学习技术领域,特别涉及一种基于反思的语言模型强化学习训练扩展方法及装置,其中,方法包括:将目标自然语言推理问题输入至预先构建的大语言模型中,以生成大语言模型的目标反思思维链;基于目标反思思维链,对大语言模型进行强化学习训练扩展,以获取目标推理模型;评估目标推理模型在目标性能与生成长度之间的关系,以得到评估结果,以利用评估结果确定目标推理模型推理扩展的目标有效性。由此,解决了相关技术中对于从人类反馈中进行强化学习的扩展潜力和属性关注较少,导致对大规模强化学习训练的实践理解具有局限性,降低了大语言模型解决复杂问题的能力的问题。
技术关键词
自然语言推理 大语言模型 强化学习技术 输入模块 有效性 处理器 文本 扩展装置 计算机程序产品 模式 关系 信息熵 可读存储介质 存储器 电子设备 摘要 人类
系统为您推荐了相关专利信息
1
一种基于大语言模型的政策比对方法及系统
大语言模型 比对方法 列表 样本 数据
2
牙模型的磨耗程度编辑方法、装置、设备及存储介质
牙模型 磨耗 特征值 拉普拉斯 顶点
3
基于影响因子的电力领域数字化项目造价评审方法
因子 语义理解模型 评审方法 项目 造价
4
情感原因知识增强的多模态方面-情感对抽取方法及系统
图文 计算机程序指令 数据 条件随机场 文本
5
欺骗攻击下基于多模态惯性神经网络的保密通信方法
神经网络系统 保密通信方法 多模态 同步误差 控制器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号