基于联邦大语言模型的自适应KL散度蒸馏训练方法和装置

正文

推荐专利

申请号：CN202510700915

申请日期：2025-05-28

公开号：CN120851123A

公开日期：2025-10-28

类型：发明专利

摘要

本发明公开了一种基于联邦大语言模型的自适应KL散度蒸馏训练方法和装置，其中联邦学习通过在多个客户端之间进行协同学习，充分利用各客户端的本地数据和计算资源，实现大语言模型的高效训练，避免了传统集中式训练中的数据隐私问题。为解决模型异质性问题，引入了具有自适应KL散度的知识蒸馏技术，通过该技术，能够有效提升联邦学习在异质化环境中的可行性，确保客户端之间的知识共享与协调。不仅提升了客户端模型的性能，还减少了因数据分布不均或计算能力差异带来的负面影响，进一步增强了联邦学习的可行性。本发明有效提升了大语言模型在语言建模任务上的表现，能够为大规模分布式大语言模型的训练提供有效的解决方案。

技术关键词

大语言模型客户端学生教师知识蒸馏技术数据分布训练装置元素计算机处理器异质指令服务器参数存储器

系统为您推荐了相关专利信息

包装设计图的质量智能评述方法、装置、存储介质及设备

包装大语言模型多模态文本编码器图像编码器

一种大模型与用户商品属性行为相结合的推荐方法及装置

线性变换矩阵多头注意力机制矩阵分解模型商品特征生成用户

一种基于多模融合的车载对话识别方法及系统

多模态识别方法数值机器学习模型意图

电气测控系统故障报告生成方法、装置、设备、介质

卷积长短期记忆电气设备历史故障数据大语言模型电气测控系统

基于大语言模型的数据联动方法、系统及装置

大语言模型数据联动方法自然语言联动系统答案

基于联邦大语言模型的自适应KL散度蒸馏训练方法和装置

站点导航

APP 下载