摘要
本申请提供了一种模型训练及信息答复方法、设备、存储介质及程序产品,涉及计算机技术领域。该方法包括:基于第一训练样本对基座模型进行持续预训练,得到基础模型;基于第二训练样本对基础模型进行冷启动监督微调训练,得到第一监督微调模型;基于第三训练样本、目标信息和待训练模型进行多次推理,得到推理结果;在第M次推理的过程中,目标信息包括前M‑1次推理确定的目标工具在调用后获取到的信息;基于推理结果对待训练模型进行优化,得到第一强化学习模型;基于通识数据以及第一强化学习模型输出的推理数据进行通识对齐训练,得到目标模型。该方法可以调用目标工具获取所需的目标信息,使得大模型输出的信息更加全面。
技术关键词
强化学习模型
信息答复方法
模型训练方法
数据
可执行程序代码
搜索工具
基础
电子设备
样本
电商
可读存储介质
计算机程序产品
答案
指令
基座
存储器
客户端
图片
系统为您推荐了相关专利信息
商品推荐列表
AI语音
交互方法
融合神经网络
分层强化学习
结构化数据模型
剪贴板内容
监听器
关键词
模型库