摘要
本申请公开了一种问答大模型训练方法、装置、设备及存储介质,涉及模型训练技术领域,包括:从目标问答系统中获取相应的历史真实问答对数据,并将历史真实问答对数据导入至待训练问答大模型对应的训练系统中;基于历史真实问答对数据、当前量化参数和当前激活值量化粒度对待训练问答大模型进行模型训练,以得到当前待训练问答大模型;在模型训练中,基于混合粒度FP8精度流策略对当前激活值量化粒度进行实时调整,以及基于预设扩展函数对优化器状态的当前量化参数进行实时调整;在满足预设模型训练结束条件下,将当前待训练问答大模型确定为目标问答大模型,以便对用户端的提问进行回答。这样一来,可以提升模型的训练速度降低大模型的训练门槛。
技术关键词
问答对数据
模型训练方法
问答系统
训练系统
优化器
参数
模型训练技术
策略
模型训练装置
模型训练模块
精度
数据格式
意图
可读存储介质
处理器
电子设备
门槛
存储器
系统为您推荐了相关专利信息
主体识别方法
工况
一维卷积神经网络
分类器
人工神经网络
环形
卷积特征
特征提取器
图像检测方法
特征提取模块
金融
大语言模型
多模态特征
融合特征
深度学习模型