一种基于参数高效微调的大语言模型稀疏方法及对话生成方法

AITNT
正文
推荐专利
一种基于参数高效微调的大语言模型稀疏方法及对话生成方法
申请号:CN202411039887
申请日期:2024-07-31
公开号:CN119025640A
公开日期:2024-11-26
类型:发明专利
摘要
本发明涉及一种基于参数高效微调的大语言模型稀疏方法及对话生成方法,其根据权重重要性度量同时稀疏LLM和低秩矩阵,保证二者具有相同的稀疏掩码,在微调之后能够合并。在每次迭代中根据互信息指标确定每一层的重要性,在保持平均稀疏率不变的情况下,为较重要的层设置较低的稀疏率,较不重要的层设置较高的稀疏率。在微调过程中计算稀疏LLM每一层的重建误差,在微调参数预算约束下,为具有较大重建误差的层分配较多的微调参数,即分配较大的秩,重建误差较小的层分配较小的秩。因此,本发明能够在高稀疏配置下显著提高大语言模型的性能。
技术关键词
大语言模型 重建误差 稀疏方法 对话生成方法 矩阵 训练语料库 参数 文本 指标 数据 度量
系统为您推荐了相关专利信息
1
一种相机BEV外参标定方法、系统、设备及介质
相机装置 车道 投影面 标定方法 坐标系
2
一种基于全局配准的有限空间定位闭环及定位数据有效性校验的方法及系统
雷达点云数据 三维点云地图 SLAM算法 有效性 矩阵
3
充电场站运营智能定价的方法、运营服务器及存储介质
充电场站 定价策略 订单 数据挖掘算法 人工智能模型
4
应用于车联网路况分析的图像场景理解方法及系统
图像场景理解 趋势预测模型 路况 潜在交互 场景语义理解
5
基于人工智能驱动的水肥一体化多目标优化智能调控系统
人工智能驱动 智能调控系统 水肥一体化 动态 水量
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号