摘要
本说明书实施例提供一种大语言模型的训练方法及装置,为了使得大语言模型具有处理复杂业务的能力,对于大语言模型的推理能力进行训练。训练分为两个阶段进行。第一个阶段为利用思维链作为监督信号的监督微调,该过程中,思维链可以采用细粒度的单个动作的生成、评价、修正方式确定,提升推理路径的灵活性和深度。第二个阶段为强化学习阶段,其中,强化学习过程中的模型奖励包括正确性奖励和长度奖励,鼓励大语言模型生成更长且可靠的推理路径,避免奖励滥用。以上方案有利于提高大语言模型适用于复杂业务的处理可靠性和准确性。
技术关键词
大语言模型
业务处理结果
样本
平滑处理过程
微调单元
阶段
训练装置
计算机
可读存储介质
存储器
策略
标签
处理器
参数
信号
系统为您推荐了相关专利信息
分布式信源
协方差矩阵
噪声功率
元素
阵列信号处理技术
操纵器装置
储存单元
自动化输送系统
输送容器
托盘