基于多头可微栈的推理语言模型训练方法及模型

AITNT
正文
推荐专利
基于多头可微栈的推理语言模型训练方法及模型
申请号:CN202510583998
申请日期:2025-05-07
公开号:CN120706535A
公开日期:2025-09-26
类型:发明专利
摘要
本申请提出一种基于多头可微栈的推理语言模型训练方法及模型,该方法包括:调用第i个特征提取层分别获取第一输入数据和第二输入数据,并通过第一输入数据和第二输入数据进行特征提取得到第i个特征提取层的输出语义特征;第一输入数据为第i‑1个特征提取层的输出语义特征;第二输入数据为多个存储栈中存储的多个语义特征的拼接结果;当第i个特征提取层为多个特征提取层的最后一层时,计算第i个特征提取层的输出语义特征与预设标准语义特征之间的损失值;若损失值满足预设收敛条件,将初始语言模型确定为基于多头可微栈的推理语言模型。本申请实施例能够有效降低模型训练时的显存开销、提高模型训练速度以及提高模型的建模效果。
技术关键词
语义特征 分片 语言模型训练方法 数据 标签 速度
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号