摘要
本申请涉及一种基于思维链的多轮对话模型的训练方法、装置。所述方法包括:获取多轮对话样本数据,构造出包含连续多个单轮对话的训练文本序列;根据训练文本序列中各单轮对话的用户交互文本和模型回复文本及其对应的思维链数据,构建注意力掩码矩阵;注意力掩码矩阵中任一单轮对话的模型回复文本,与任一单轮对话之前的单轮对话的思维链数据之间不存在注意力依赖关系;基于注意力掩码矩阵对多轮对话模型进行模型训练,得到训练后的多轮对话模型;训练后的多轮对话模型在推理时的模型输入格式,与多轮对话模型在训练时的模型输入格式相匹配。采用本方法能够提升训练效率,确保模型训练时的依赖关系与线上推理一致,兼顾了训练效率与模型效果。
技术关键词
多轮对话
掩码矩阵
单轮
注意力
文本
序列
数据
格式
模型训练模块
关系
标记方式
计算机程序产品
处理器
训练装置
标签
样本
计算机设备
可读存储介质
存储器