摘要
本公开涉及一种大模型后训练方法、装置、计算机程序及存储介质,该方法包括:获取大模型对同一请求问题生成的包含多个候选答案的输出组;将所述多个候选答案中的至少一个替换为标准答案,得到更新后的输出组;基于更新后的输出组,对所述大模型进行训练。本公开实施例通过动态替换与单阶段训练的结合,使得模型在无需依赖复杂外部模块或人工干预的情况下,高效优化生成策略。
技术关键词
答案
错误率
非易失性计算机可读存储介质
策略
传播算法
进程
训练装置
处理器
动态
参数
强度
模块
存储器
阶段
电子设备
数据
因子
系统为您推荐了相关专利信息
实时状态信息
干扰决策方法
循环卷积网络
策略
联合损失函数
优化决策方法
新能源场站
加权融合算法
策略
滑动时间窗