一种基于自适应知识蒸馏的代码生成模型训练方法

AITNT
正文
推荐专利
一种基于自适应知识蒸馏的代码生成模型训练方法
申请号:CN202410966801
申请日期:2024-07-18
公开号:CN118863009A
公开日期:2024-10-29
类型:发明专利
摘要
本发明公开了一种基于自适应知识蒸馏的代码生成模型训练方法,该方法包括获取并格式化训练数据集,输入模板至生成器模型以产生预测结果,随后对学生模型和教师模型的输出结果进行软化处理,利用Softmax函数结合温度参数T获取概率分布。通过归一化处理得到归一化逻辑值,结合反向和正向KL散度,计算出自适应知识蒸馏损失函数,使用dam优化算法更新学生模型参数,并在每次参数更新后进行前向传递,评估模型的预测输出和损失值,确保训练的收敛性和稳定性。本发明还提供了详细的计算公式和模板内容,确保了方法的可实施性和有效性。通过本方法,可以显著提升模型在资源受限设备上的性能,同时保持高效的本地部署能力。
技术关键词
模型训练方法 学生 教师 蒸馏 格式化 Softmax函数 资源受限设备 教室模型 模板 批量数据 传播算法 计算方法 超参数 指数 样本 有效性 标记
系统为您推荐了相关专利信息
1
一种煤炭灰熔点模型训练方法、装置、系统及存储介质
模型训练方法 模型训练系统 煤炭 基础 模型训练装置
2
一种基于流数据的增量模糊宽度学习机电设备故障诊断方法
故障诊断模型 模糊宽度学习 子系统 数据 机电设备故障诊断
3
一种模型训练方法、氢燃料电池汽车的氢气泄漏预测方法
氢气 监测点 序列 仿真模型 氢燃料电池汽车
4
基于深度学习的SiC沟槽刻蚀优化方法及系统
轻量化神经网络 神经网络结构 沟槽 知识蒸馏技术 网络剪枝
5
一种信审对话数据构建方法
数据构建方法 文本 打分器 样本 教师
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号