摘要
本发明提供一种语言模型训练方法、文本处理方法、装置、设备及介质,涉及自然语言处理技术领域,其中方法包括:基于教师模型,预测样本文本中各数据单元对应的第一概率矩阵;第一概率矩阵包括各数据单元属于第一词表中各词元的概率值;根据第一概率矩阵中各概率值的数值大小,对第一概率矩阵进行压缩,得到各数据单元对应的第二概率矩阵;根据第二概率矩阵中各概率值对应的词元,对第二词表进行对齐操作,得到第三词表;根据第三词表和第二概率矩阵,对学生模型进行蒸馏训练,得到目标语言模型,由此降低了存储成本,提升了蒸馏训练效率,而且使得据此训练的目标语言模型在保持高性能的同时,可更好地适应不同的模型架构和文本处理场景。
技术关键词
语言模型训练方法
矩阵
文本处理方法
索引
学生
编码
数据
重构
模式
磁盘
非暂态计算机可读存储介质
机器翻译
教师
文本处理装置
模型训练装置
蒸馏
处理单元
关系
处理器