大语言模型的训练方法及装置

AITNT
正文
推荐专利
大语言模型的训练方法及装置
申请号:CN202411450863
申请日期:2024-10-16
公开号:CN119443155A
公开日期:2025-02-14
类型:发明专利
摘要
本说明书实施例提供了大语言模型的训练方法及装置。该方法包括:获取训练样本集,其中的各训练样本均包括问题、偏好回答和非偏好回答,并且部分训练样本各自包括的偏好回答和非偏好回答相同;对于训练样本集中任意的第一样本,将其中的第一问题作为模型输入,在获得参考模型和待优化的大语言模型各自生成第一样本中的第一偏好回答的第一概率后,根据第一概率确定针对第一偏好回答的第一奖励值;确定针对第一样本中的第一非偏好回答的第二奖励值,其响应于确定第一偏好回答和第一非偏好回答相同而为0;基于训练损失更新大语言模型的参数,该训练损失与第一奖励值和第二奖励值的差值负相关。
技术关键词
大语言模型 训练样本集 计算机程序产品 数据 训练装置 处理器 存储器 参数 指令 元素
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号