一种基于自适应知识蒸馏的代码生成模型训练方法

正文

推荐专利

申请号：CN202410966801

申请日期：2024-07-18

公开号：CN118863009A

公开日期：2024-10-29

类型：发明专利

摘要

本发明公开了一种基于自适应知识蒸馏的代码生成模型训练方法，该方法包括获取并格式化训练数据集，输入模板至生成器模型以产生预测结果，随后对学生模型和教师模型的输出结果进行软化处理，利用Softmax函数结合温度参数T获取概率分布。通过归一化处理得到归一化逻辑值，结合反向和正向KL散度，计算出自适应知识蒸馏损失函数，使用dam优化算法更新学生模型参数，并在每次参数更新后进行前向传递，评估模型的预测输出和损失值，确保训练的收敛性和稳定性。本发明还提供了详细的计算公式和模板内容，确保了方法的可实施性和有效性。通过本方法，可以显著提升模型在资源受限设备上的性能，同时保持高效的本地部署能力。

技术关键词

模型训练方法学生教师蒸馏格式化 Softmax函数资源受限设备教室模型模板批量数据传播算法计算方法超参数指数样本有效性标记

系统为您推荐了相关专利信息

一种煤炭灰熔点模型训练方法、装置、系统及存储介质

模型训练方法模型训练系统煤炭基础模型训练装置

一种基于流数据的增量模糊宽度学习机电设备故障诊断方法

故障诊断模型模糊宽度学习子系统数据机电设备故障诊断

一种模型训练方法、氢燃料电池汽车的氢气泄漏预测方法

氢气监测点序列仿真模型氢燃料电池汽车

基于深度学习的SiC沟槽刻蚀优化方法及系统

轻量化神经网络神经网络结构沟槽知识蒸馏技术网络剪枝

一种信审对话数据构建方法

数据构建方法文本打分器样本教师

一种基于自适应知识蒸馏的代码生成模型训练方法

站点导航

APP 下载