摘要
本发明公开了一种基于细粒度蒸馏提升大语言模型代码生成能力的方法及系统,在token层面上计算得分,以更加细粒度的方式控制整个蒸馏过程;在数据集处理模块,对数据集进行处理,然后让学生模型生成代码和logits,让教师模型生成logits;在代理模块,对Q表以及资源进行集中管理,使得代理可以当作插件使用;代理模块中,首先构建Q表;然后使用测试集对学生模型生成的代码进行评估;再根据评估结果更新Q表;最后根据Q表动态更新蒸馏温度T;在损失函数模块,将标准蒸馏损失函数中的交叉熵部分去除,只保留KL散度部分。本发明能够提高代码生成大语言模型的蒸馏效果,使得生成的代码质量提高。
技术关键词
大语言模型
教师
学生
蒸馏
生成代码
数据
模块
样本
序列
动态更新
平滑度
插件
元素
资源
变量
对象
入口
参数
系统为您推荐了相关专利信息
建筑施工工艺
智能回答方法
大语言模型
回答系统
子模块
回复信息生成方法
大语言模型
计算机设备
计算机程序产品
信息生成装置
知识问答系统
电力
大语言模型
图谱
光学字符识别技术