一种面向量化大语言模型高效微调的低秩矩阵的缩放调节方法及对话生成方法

正文

推荐专利

申请号：CN202411037233

申请日期：2024-07-31

公开号：CN119106117A

公开日期：2024-12-10

类型：发明专利

摘要

本发明涉及一种面向量化大语言模型高效微调的低秩矩阵的缩放调节方法及对话生成方法，本发明在权重微调的过程中，对所有的数据会进行逐批次的迭代，迭代过程用以计算前向计算和反向计算，以进行模型优化。且在每次迭代中考虑量化比特宽度带来的影响，避免因为不同比特量化带来的误差导致欠拟合和过拟合问题。同时，在每次迭代中本专利使用和量化网络同粒度的低秩矩阵，这样在量化微调结束后可以保持量化格式的不变。因此解决现有技术中不同量化位宽下低秩矩阵的缩放调节不当等问题，提高了大语言模型微调的性能。

技术关键词

大语言模型对话生成方法矩阵训练语料库数据计算机程序产品处理器文本调节系统分词指令超参数可读存储介质网络存储器格式标签误差

系统为您推荐了相关专利信息

微电网信息处理方法、装置、计算机设备、可读存储介质和程序产品

微电网系统状态空间模型子系统方程滑模观测器

状态检测方法、装置、电子设备及可读存储介质

加速度音频特征全球定位系统数据电子设备无线网络参数

一种VQE算法中拟设线路最左端激发算符的构造方法

线路门构造量子态算法 CNOT门

铲斗的斗齿监测方法、装置、铲斗

监测方法标签文件神经网络模型生成标签图像处理模块

基于大模型的SQL数据集构建方法、装置、电子设备

数据集构建方法模板语句结构化查询语言电子设备

一种面向量化大语言模型高效微调的低秩矩阵的缩放调节方法及对话生成方法

站点导航

APP 下载