大语言模型的训练方法及装置

AITNT
正文
推荐专利
大语言模型的训练方法及装置
申请号:CN202510913992
申请日期:2025-07-02
公开号:CN120875027A
公开日期:2025-10-31
类型:发明专利
摘要
本说明书实施例提供一种大语言模型的训练方法及装置,为了使得大语言模型具有处理复杂业务的能力,对于大语言模型的推理能力进行训练。训练分为两个阶段进行。第一个阶段为利用思维链作为监督信号的监督微调,该过程中,思维链可以采用细粒度的单个动作的生成、评价、修正方式确定,提升推理路径的灵活性和深度。第二个阶段为强化学习阶段,其中,强化学习过程中的模型奖励包括正确性奖励和长度奖励,鼓励大语言模型生成更长且可靠的推理路径,避免奖励滥用。以上方案有利于提高大语言模型适用于复杂业务的处理可靠性和准确性。
技术关键词
大语言模型 业务处理结果 样本 平滑处理过程 微调单元 阶段 训练装置 计算机 可读存储介质 存储器 策略 标签 处理器 参数 信号
系统为您推荐了相关专利信息
1
一种基于多源知识融合的检索增强生成方法、系统及性能验证方法
大语言模型 检索策略 数据 生成方法 接口端
2
一种分布式信源感知方法
分布式信源 协方差矩阵 噪声功率 元素 阵列信号处理技术
3
用于储存包含组织学样本的包埋材料块的系统和方法
操纵器装置 储存单元 自动化输送系统 输送容器 托盘
4
竖炉生产过程数据预测方法、装置、设备及存储介质
球团矿 竖炉 数据预测方法 网格 机器学习模型
5
一种用于水质样本中分子SERS检测的微流控芯片结构、制备方法及其应用
弧形玻璃 芯片结构 流体混合阀 玻璃基板 水质
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号