摘要
本发明涉及一种基于参数高效微调的大语言模型稀疏方法及对话生成方法,其根据权重重要性度量同时稀疏LLM和低秩矩阵,保证二者具有相同的稀疏掩码,在微调之后能够合并。在每次迭代中根据互信息指标确定每一层的重要性,在保持平均稀疏率不变的情况下,为较重要的层设置较低的稀疏率,较不重要的层设置较高的稀疏率。在微调过程中计算稀疏LLM每一层的重建误差,在微调参数预算约束下,为具有较大重建误差的层分配较多的微调参数,即分配较大的秩,重建误差较小的层分配较小的秩。因此,本发明能够在高稀疏配置下显著提高大语言模型的性能。
技术关键词
大语言模型
重建误差
稀疏方法
对话生成方法
矩阵
训练语料库
参数
文本
指标
数据
度量
系统为您推荐了相关专利信息
雷达点云数据
三维点云地图
SLAM算法
有效性
矩阵
充电场站
定价策略
订单
数据挖掘算法
人工智能模型
图像场景理解
趋势预测模型
路况
潜在交互
场景语义理解
人工智能驱动
智能调控系统
水肥一体化
动态
水量