摘要
本申请公开了一种基于知识蒸馏的文本分类方法、装置、设备及介质,涉及自然语言处理领域,包括:将预设数据集输入至预训练文本分类模型得到第一输出结果、并输入至预设卷积神经网络模型得到第二输出结果;所述预训练文本分类模型为预训练模型微调后的模型;确定第一输出结果和第二输出结果的交叉熵,并根据交叉熵确定目标交叉熵损失,以及确定对应的蒸馏损失;基于目标交叉熵损失和蒸馏损失利用预设数据集对预设卷积神经网络模型进行训练得到目标文本分类模型,并部署至通用图形处理器,以便利用通用图形处理器处理文本分类任务。通过知识蒸馏轻量化大模型并部署到通用图形处理器,在减小模型尺寸和复杂度的同时又能保证良好的计算性能。
技术关键词
文本分类模型
通用图形处理器
文本分类方法
卷积神经网络模型
蒸馏
数据
预训练模型
文本分类装置
预训练语言模型
模型训练模块
存储计算机程序
特征值
内存
电子设备
标签
自然语言
可读存储介质
存储器
系统为您推荐了相关专利信息
风险识别方法
服务器运行日志
网络流量数据
特征值
初始聚类中心
电厂巡检方法
巡检路径
局部路径规划算法
卷积神经网络模型
全局路径规划