摘要
本申请提供一种横向混合注意力机制的模型训练方法、介质、设备及程序产品,方法包括:获取包含多个样本序列的数据集,数据集中的每个样本序列由经分词处理得到的多个Token顺序排列组成;基于预训练的全注意力模型构建待训练模型,并增加用于线性注意力计算的新增参数;在同一横向混合注意力层中,对位于预设全注意力计算范围内的Token集合执行全注意力计算,对全部Token执行线性注意力计算,并融合两者结果,得到用于前向推理和损失计算的横向混合注意力输出;基于所述输出及预测结果,仅更新新增参数优化待训练模型,直至待训练模型收敛。本申请降低了长文本序列处理的计算复杂度与显存占用,提高了推理速度与资源利用率。
技术关键词
模型训练方法
注意力模型
注意力机制
性能预测模型
计算机程序指令
序列
线性
性能监测数据
参数
样本
计算机程序产品
处理器
精度
电子设备
分词
标签
蒸馏
系统为您推荐了相关专利信息
样本
模型训练方法
场景特征
权分配方法
动作预测模型
多源信息融合
可见光图像
深度残差网络
实时数据采集
异常点
维修指导方法
矿井通风设备
历史维修数据
BERT模型
深度强化学习