大语言模型知识蒸馏方法、装置、设备及介质

正文

推荐专利

申请号：CN202511190355

申请日期：2025-08-22

公开号：CN120930805A

公开日期：2025-11-11

类型：发明专利

摘要

本发明涉及人工智能领域，技术方案可应用在金融科技/医疗健康领域，公开了一种大语言模型知识蒸馏方法、装置、设备及介质，方法包括：获取业务数据，所述业务数据包括输入文本序列、期望输出文本序列以及对应的注意力掩码序列；将所述输入文本序列和所述注意力掩码序列输入至学生模型和教师模型，分别获得学生模型输出的第一预测概率分布和教师模型输出的第二预测概率分布；基于所述第一预测概率分布和所述第二预测概率分布，计算反向KL散度损失值；利用所述反向KL散度损失值优化所述学生模型的参数。本发明通过反向KL散度损失函数引导学生模型精准拟合教师模型的核心概率分布，使轻量化模型的生成准确率得到明显提升。

技术关键词

知识蒸馏方法学生大语言模型序列文本注意力教师神经网络模型深度学习框架梯度下降算法参数可读存储介质医疗健康数据获取模块处理器蒸馏装置计算机设备标识规模

系统为您推荐了相关专利信息

联网设备的异常行为检测方法、设备、计算机程序产品

神经网络预测模型联网设备序列变量卷积模块

一种面向绞线机的绞线张力监测方法及系统

序列监测方法频率指数短时傅里叶变换

基于视频语义解析的层级结构化超立体知识库构建方法

知识库构建方法关键帧节点大语言模型视频

一种具身智能类脑决策方法、系统、设备及存储介质

脉冲神经网络模型语义向量多模态数据采集决策方法听觉

基于AI的虚拟电厂能源供需精准匹配方法及系统

负荷预测模型精准匹配方法充放电功率计划生成电力

大语言模型知识蒸馏方法、装置、设备及介质

站点导航

APP 下载