摘要
本申请涉及一种模型训练方法、查询方法、装置、服务器和存储介质。所述大模型训练方法包括:基于样本查询问题,从文档库中检索与样本查询问题相关的辅助文档;将样本查询问题、辅助文档和样本候选文档输入至初始生成式模型中,得到样本查询问题的样本回复信息;样本回复信息为初始生成式模型基于样本查询问题和辅助文档,确定样本查询问题对应的用户意图信息,并基于用户意图信息和样本候选文档输出的;根据样本回复信息,得到目标奖励;基于目标奖励和强化学习算法对初始生成式模型进行训练,得到目标生成式模型。采用该模型训练方法能够提高生成式模型输出的推荐内容的准确度。
技术关键词
样本
强化学习算法
模型训练方法
度量
意图
查询方法
格式
模型训练装置
大语言模型
服务器
查询装置
计算机程序产品
处理器
模块
可读存储介质
存储器
参数
系统为您推荐了相关专利信息
故障诊断方法
特征提取模块
分类器
故障诊断模型
共享卷积神经网络
多智能体协同
决策方法
工业
机器学习模型
多模态