大语言模型的训练方法及装置

正文

推荐专利

大语言模型的训练方法及装置

申请号：CN202510913992

申请日期：2025-07-02

公开号：CN120875027A

公开日期：2025-10-31

类型：发明专利

摘要

本说明书实施例提供一种大语言模型的训练方法及装置，为了使得大语言模型具有处理复杂业务的能力，对于大语言模型的推理能力进行训练。训练分为两个阶段进行。第一个阶段为利用思维链作为监督信号的监督微调，该过程中，思维链可以采用细粒度的单个动作的生成、评价、修正方式确定，提升推理路径的灵活性和深度。第二个阶段为强化学习阶段，其中，强化学习过程中的模型奖励包括正确性奖励和长度奖励，鼓励大语言模型生成更长且可靠的推理路径，避免奖励滥用。以上方案有利于提高大语言模型适用于复杂业务的处理可靠性和准确性。

技术关键词

大语言模型业务处理结果样本平滑处理过程微调单元阶段训练装置计算机可读存储介质存储器策略标签处理器参数信号

系统为您推荐了相关专利信息

一种基于多源知识融合的检索增强生成方法、系统及性能验证方法

大语言模型检索策略数据生成方法接口端

一种分布式信源感知方法

分布式信源协方差矩阵噪声功率元素阵列信号处理技术

用于储存包含组织学样本的包埋材料块的系统和方法

操纵器装置储存单元自动化输送系统输送容器托盘

竖炉生产过程数据预测方法、装置、设备及存储介质

球团矿竖炉数据预测方法网格机器学习模型

一种用于水质样本中分子SERS检测的微流控芯片结构、制备方法及其应用

弧形玻璃芯片结构流体混合阀玻璃基板水质

大语言模型的训练方法及装置

站点导航

APP 下载