面向纯文本应用的大语言模型微调训练方法及相关装置

AITNT
正文
推荐专利
面向纯文本应用的大语言模型微调训练方法及相关装置
申请号:CN202411637692
申请日期:2024-11-15
公开号:CN119539007A
公开日期:2025-02-28
类型:发明专利
摘要
本申请公开了一种面向纯文本应用的大语言模型微调训练方法及相关装置,包括:获取目标垂直领域所对应的垂直领域数据集,以大语言模型微调所需要的数据集格式进行整理;将预训练模型的权重矩阵分解为方向性矩阵和幅度向量并将其量化;在模型微调训练的前向传播过程中使用秩平方根方法,缓解了在矩阵秩较大情况时的梯度崩溃问题,同时调整反向传播过程中的矩阵学习率比率,提升了模型对输入特征变化和输出特征生成任务的适应性;最后计算出损失函数对于矩阵和幅度向量的梯度并分别对其进行更新,得到最终微调模型。本申请在使用较小计算开销的前提下,提升了模型的微调效率和精度,并且该方法可以应用到各种大语言模型及垂直领域中,具有良好的泛化性。
技术关键词
矩阵 大语言模型 文本 计算机程序产品 传播算法 输出特征 处理器 计算机设备 平方根 可读存储介质 比率 数据 指令 精度 存储器 电力 电子设备 格式 因子
系统为您推荐了相关专利信息
1
一种SQL语句生成方法、装置、电子设备及存储介质
大语言模型 文本 语义向量 复杂度 语句生成方法
2
一种基于数据重构的多视图聚类集成的销售因素多偏好决策评价方法及系统
决策评价方法 谱聚类算法 锚点 矩阵 数据处理模块
3
一种防眩光Micro LED显示屏及其防眩光调节方法、系统
深度学习预测 防眩光 透光率 偏振态 光强度
4
一种基于平均误差先验的矿井通风网络风阻推导方法
推导方法 网络 风量 传感器数据采集模块 矿井通风技术
5
一种基于无人机遥感技术的矿山测绘方法及系统
无人机遥感技术 高分辨率相机 三维表面模型 测绘方法 地质结构
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号