摘要
本发明公开了一种大语言模型微调方法及装置,包括获取微调文本数据集,并对微调文本数据集进行预处理,输出微调文本验证集和多个微调权重增量矩阵;对各微调权重增量矩阵进行逐层折叠,确定初始三阶张量;采用预置张量奇异值阈值算法对初始三阶张量进行秩约束,确定目标三阶张量;基于目标三阶张量,确定二阶低秩全局微调权重增量矩阵;采用二阶低秩全局微调权重增量矩阵和微调文本验证集对预置初始大语言模型进行权重微调,确定目标大语言模型;解决了现有的大语言模型微调方法导致大语言模型的性能较差的技术问题。
技术关键词
大语言模型
微调方法
矩阵
文本
阈值算法
分布式训练
元素
处理器
数据
训练集
计算机程序产品
微调装置
核心
指令
模块
可读存储介质
存储器
电子设备
系统为您推荐了相关专利信息
地形特征分析
路段
道路施工方法
多模态数据采集
前馈神经网络
分层知识库
传输线路
异构信息网络
电力线路系统
节点
检测模型训练方法
可靠型
学生
无标签数据
无监督分类