面向纯文本应用的大语言模型微调训练方法及相关装置

正文

推荐专利

申请号：CN202411637692

申请日期：2024-11-15

公开号：CN119539007A

公开日期：2025-02-28

类型：发明专利

摘要

本申请公开了一种面向纯文本应用的大语言模型微调训练方法及相关装置，包括：获取目标垂直领域所对应的垂直领域数据集，以大语言模型微调所需要的数据集格式进行整理；将预训练模型的权重矩阵分解为方向性矩阵和幅度向量并将其量化；在模型微调训练的前向传播过程中使用秩平方根方法，缓解了在矩阵秩较大情况时的梯度崩溃问题，同时调整反向传播过程中的矩阵学习率比率，提升了模型对输入特征变化和输出特征生成任务的适应性；最后计算出损失函数对于矩阵和幅度向量的梯度并分别对其进行更新，得到最终微调模型。本申请在使用较小计算开销的前提下，提升了模型的微调效率和精度，并且该方法可以应用到各种大语言模型及垂直领域中，具有良好的泛化性。

技术关键词

矩阵大语言模型文本计算机程序产品传播算法输出特征处理器计算机设备平方根可读存储介质比率数据指令精度存储器电力电子设备格式因子

系统为您推荐了相关专利信息

一种SQL语句生成方法、装置、电子设备及存储介质

大语言模型文本语义向量复杂度语句生成方法

一种基于数据重构的多视图聚类集成的销售因素多偏好决策评价方法及系统

决策评价方法谱聚类算法锚点矩阵数据处理模块

一种防眩光Micro LED显示屏及其防眩光调节方法、系统

深度学习预测防眩光透光率偏振态光强度

一种基于平均误差先验的矿井通风网络风阻推导方法

推导方法网络风量传感器数据采集模块矿井通风技术

一种基于无人机遥感技术的矿山测绘方法及系统

无人机遥感技术高分辨率相机三维表面模型测绘方法地质结构

面向纯文本应用的大语言模型微调训练方法及相关装置

站点导航

APP 下载