大语言模型知识蒸馏方法、装置、设备及介质

AITNT
正文
推荐专利
大语言模型知识蒸馏方法、装置、设备及介质
申请号:CN202511190355
申请日期:2025-08-22
公开号:CN120930805A
公开日期:2025-11-11
类型:发明专利
摘要
本发明涉及人工智能领域,技术方案可应用在金融科技/医疗健康领域,公开了一种大语言模型知识蒸馏方法、装置、设备及介质,方法包括:获取业务数据,所述业务数据包括输入文本序列、期望输出文本序列以及对应的注意力掩码序列;将所述输入文本序列和所述注意力掩码序列输入至学生模型和教师模型,分别获得学生模型输出的第一预测概率分布和教师模型输出的第二预测概率分布;基于所述第一预测概率分布和所述第二预测概率分布,计算反向KL散度损失值;利用所述反向KL散度损失值优化所述学生模型的参数。本发明通过反向KL散度损失函数引导学生模型精准拟合教师模型的核心概率分布,使轻量化模型的生成准确率得到明显提升。
技术关键词
知识蒸馏方法 学生 大语言模型 序列 文本 注意力 教师 神经网络模型 深度学习框架 梯度下降算法 参数 可读存储介质 医疗健康 数据获取模块 处理器 蒸馏装置 计算机设备 标识 规模
系统为您推荐了相关专利信息
1
联网设备的异常行为检测方法、设备、计算机程序产品
神经网络预测模型 联网设备 序列 变量 卷积模块
2
一种面向绞线机的绞线张力监测方法及系统
序列 监测方法 频率 指数 短时傅里叶变换
3
基于视频语义解析的层级结构化超立体知识库构建方法
知识库构建方法 关键帧 节点 大语言模型 视频
4
一种具身智能类脑决策方法、系统、设备及存储介质
脉冲神经网络模型 语义向量 多模态数据采集 决策方法 听觉
5
基于AI的虚拟电厂能源供需精准匹配方法及系统
负荷预测模型 精准匹配方法 充放电功率 计划 生成电力
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号