基于联邦大语言模型的自适应KL散度蒸馏训练方法和装置

AITNT
正文
推荐专利
基于联邦大语言模型的自适应KL散度蒸馏训练方法和装置
申请号:CN202510700915
申请日期:2025-05-28
公开号:CN120851123A
公开日期:2025-10-28
类型:发明专利
摘要
本发明公开了一种基于联邦大语言模型的自适应KL散度蒸馏训练方法和装置,其中联邦学习通过在多个客户端之间进行协同学习,充分利用各客户端的本地数据和计算资源,实现大语言模型的高效训练,避免了传统集中式训练中的数据隐私问题。为解决模型异质性问题,引入了具有自适应KL散度的知识蒸馏技术,通过该技术,能够有效提升联邦学习在异质化环境中的可行性,确保客户端之间的知识共享与协调。不仅提升了客户端模型的性能,还减少了因数据分布不均或计算能力差异带来的负面影响,进一步增强了联邦学习的可行性。本发明有效提升了大语言模型在语言建模任务上的表现,能够为大规模分布式大语言模型的训练提供有效的解决方案。
技术关键词
大语言模型 客户端 学生 教师 知识蒸馏技术 数据分布 训练装置 元素 计算机 处理器 异质 指令 服务器 参数 存储器
系统为您推荐了相关专利信息
1
包装设计图的质量智能评述方法、装置、存储介质及设备
包装 大语言模型 多模态 文本编码器 图像编码器
2
一种大模型与用户商品属性行为相结合的推荐方法及装置
线性变换矩阵 多头注意力机制 矩阵分解模型 商品特征 生成用户
3
一种基于多模融合的车载对话识别方法及系统
多模态 识别方法 数值 机器学习模型 意图
4
电气测控系统故障报告生成方法、装置、设备、介质
卷积长短期记忆 电气设备 历史故障数据 大语言模型 电气测控系统
5
基于大语言模型的数据联动方法、系统及装置
大语言模型 数据联动方法 自然语言 联动系统 答案
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号