摘要
本发明涉及人工智能领域,技术方案可应用在金融科技/医疗健康领域,公开了一种大语言模型知识蒸馏方法、装置、设备及介质,方法包括:获取业务数据,所述业务数据包括输入文本序列、期望输出文本序列以及对应的注意力掩码序列;将所述输入文本序列和所述注意力掩码序列输入至学生模型和教师模型,分别获得学生模型输出的第一预测概率分布和教师模型输出的第二预测概率分布;基于所述第一预测概率分布和所述第二预测概率分布,计算反向KL散度损失值;利用所述反向KL散度损失值优化所述学生模型的参数。本发明通过反向KL散度损失函数引导学生模型精准拟合教师模型的核心概率分布,使轻量化模型的生成准确率得到明显提升。
技术关键词
知识蒸馏方法
学生
大语言模型
序列
文本
注意力
教师
神经网络模型
深度学习框架
梯度下降算法
参数
可读存储介质
医疗健康
数据获取模块
处理器
蒸馏装置
计算机设备
标识
规模
系统为您推荐了相关专利信息
脉冲神经网络模型
语义向量
多模态数据采集
决策方法
听觉
负荷预测模型
精准匹配方法
充放电功率
计划
生成电力