大语言模型蒸馏方法、装置、设备及存储介质

AITNT
正文
推荐专利
大语言模型蒸馏方法、装置、设备及存储介质
申请号:CN202410929076
申请日期:2024-07-11
公开号:CN119089975A
公开日期:2024-12-06
类型:发明专利
摘要
本申请公开了一种大语言模型蒸馏方法、装置、设备及存储介质,涉及计算机技术领域,所述大语言模型蒸馏方法包括:基于马尔可夫决策过程和教师模型的生成过程确定所述教师模型的教师占用测度和学生模型的学生占用测度;通过所述教师占用测度、所述学生占用测度以及JS散度进行损失函数定义,确定所述学生模型的训练损失函数;根据专家数据集、目标判别器以及所述训练损失函数对所述学生模型进行训练,得到目标蒸馏模型,以通过所述目标蒸馏模型进行语言处理任务。通过上述方式,蒸馏过程结合了黑盒知识蒸馏和白盒知识蒸馏的优点,降低了模型蒸馏的时间成本和硬件成本,并保证了蒸馏小模型的模型性能和通用性。
技术关键词
大语言模型 学生 教师 模型蒸馏方法 样本 数据 蒸馏设备 决策 蒸馏装置 定义 文本 训练集 程序 处理器 度量 存储器 参数 指标
系统为您推荐了相关专利信息
1
一种无先验反事实样本分析方法及装置
样本分析方法 样本分析装置 变量 算法 表达式
2
一种基于大模型的眼科疾病智能诊疗管理方法及系统
智能诊疗管理方法 大语言模型 标志物 患者 深度学习模型
3
电动自行车负荷特征的构建方法、系统、设备及存储介质
负荷特征 充电电池 自行车 家庭 电能
4
检测生物标志物的工具在制备诊断或预测前列腺癌术后复发的产品中的应用
预测前列腺癌 生物标志物表达 检测前列腺癌 药物给药 基因
5
一种结合环境分析的抗滑缓释营养生态棒配方优化方法
生态 记忆 邻域 植被 存储库
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号