摘要
本申请公开了一种模型训练方法、文本生成方法及装置,用于在不显式输出推理过程(如CoT)的前提下,保留CoT所带来的深度理解和生成合规性,同时大幅度降低响应时延和计算资源消耗。所述模型训练方法包括:通过第一模型对样本文本进行编码,得到第一隐向量;所述样本文本包括第一提示词和参考推理过程文本,所述参考推理过程文本用于描述根据所述第一提示词得到参考回复文本的推理过程;通过第二模型,基于所述第一隐向量对所述第一提示词进行编码得到第二隐向量,以及基于所述第二隐向量,生成所述第一提示词的第一回复文本;基于所述第一回复文本和所述参考回复文本调整所述第二模型的参数,得到第三模型。
技术关键词
模型训练方法
文本生成方法
样本
文本生成装置
模型训练装置
参数
注意力
矩阵
编码模块
合规性
时延