基于细粒度蒸馏提升大语言模型代码生成能力的方法及系统

AITNT
正文
推荐专利
基于细粒度蒸馏提升大语言模型代码生成能力的方法及系统
申请号:CN202411846357
申请日期:2024-12-16
公开号:CN119902759B
公开日期:2025-11-11
类型:发明专利
摘要
本发明公开了一种基于细粒度蒸馏提升大语言模型代码生成能力的方法及系统,在token层面上计算得分,以更加细粒度的方式控制整个蒸馏过程;在数据集处理模块,对数据集进行处理,然后让学生模型生成代码和logits,让教师模型生成logits;在代理模块,对Q表以及资源进行集中管理,使得代理可以当作插件使用;代理模块中,首先构建Q表;然后使用测试集对学生模型生成的代码进行评估;再根据评估结果更新Q表;最后根据Q表动态更新蒸馏温度T;在损失函数模块,将标准蒸馏损失函数中的交叉熵部分去除,只保留KL散度部分。本发明能够提高代码生成大语言模型的蒸馏效果,使得生成的代码质量提高。
技术关键词
大语言模型 教师 学生 蒸馏 生成代码 数据 模块 样本 序列 动态更新 平滑度 插件 元素 资源 变量 对象 入口 参数
系统为您推荐了相关专利信息
1
一种建筑施工工艺信息智能回答方法和系统
建筑施工工艺 智能回答方法 大语言模型 回答系统 子模块
2
回复信息生成方法、装置、计算机设备及存储介质
回复信息生成方法 大语言模型 计算机设备 计算机程序产品 信息生成装置
3
一种基于认知推理链的多智能体社交网络模拟方法及系统
网络模拟方法 社交 智能体系统 画像 决策
4
基于大语言模型的电力领域知识问答系统构建方法
知识问答系统 电力 大语言模型 图谱 光学字符识别技术
5
隐私数据保护方法、设备、存储介质及计算机程序产品
隐私数据保护方法 明文 大语言模型 加密 解密
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号