横向混合注意力机制的模型训练方法、介质、设备及程序产品

正文

推荐专利

申请号：CN202511159707

申请日期：2025-08-19

公开号：CN121031665A

公开日期：2025-11-28

类型：发明专利

摘要

本申请提供一种横向混合注意力机制的模型训练方法、介质、设备及程序产品，方法包括：获取包含多个样本序列的数据集，数据集中的每个样本序列由经分词处理得到的多个Token顺序排列组成；基于预训练的全注意力模型构建待训练模型，并增加用于线性注意力计算的新增参数；在同一横向混合注意力层中，对位于预设全注意力计算范围内的Token集合执行全注意力计算，对全部Token执行线性注意力计算，并融合两者结果，得到用于前向推理和损失计算的横向混合注意力输出；基于所述输出及预测结果，仅更新新增参数优化待训练模型，直至待训练模型收敛。本申请降低了长文本序列处理的计算复杂度与显存占用，提高了推理速度与资源利用率。

技术关键词

模型训练方法注意力模型注意力机制性能预测模型计算机程序指令序列线性性能监测数据参数样本计算机程序产品处理器精度电子设备分词标签蒸馏

系统为您推荐了相关专利信息

模型训练方法、驾驶权分配方法、设备及存储介质

样本模型训练方法场景特征权分配方法动作预测模型

基于CauDformer模型的工业浓缩参数预测方法

参数预测方法编码器模块表达式代表数据嵌入

基于云计算的挡土墙三维设计决策支持系统及方法

挡土墙决策支持方法数据标签三维模型

基于多源信息融合的森林火源检测方法、系统和存储介质

多源信息融合可见光图像深度残差网络实时数据采集异常点

一种混合现实矿井通风设备维修指导方法

维修指导方法矿井通风设备历史维修数据 BERT模型深度强化学习

横向混合注意力机制的模型训练方法、介质、设备及程序产品

站点导航

APP 下载