横向混合注意力机制的模型训练方法、介质、设备及程序产品

AITNT
正文
推荐专利
横向混合注意力机制的模型训练方法、介质、设备及程序产品
申请号:CN202511159707
申请日期:2025-08-19
公开号:CN121031665A
公开日期:2025-11-28
类型:发明专利
摘要
本申请提供一种横向混合注意力机制的模型训练方法、介质、设备及程序产品,方法包括:获取包含多个样本序列的数据集,数据集中的每个样本序列由经分词处理得到的多个Token顺序排列组成;基于预训练的全注意力模型构建待训练模型,并增加用于线性注意力计算的新增参数;在同一横向混合注意力层中,对位于预设全注意力计算范围内的Token集合执行全注意力计算,对全部Token执行线性注意力计算,并融合两者结果,得到用于前向推理和损失计算的横向混合注意力输出;基于所述输出及预测结果,仅更新新增参数优化待训练模型,直至待训练模型收敛。本申请降低了长文本序列处理的计算复杂度与显存占用,提高了推理速度与资源利用率。
技术关键词
模型训练方法 注意力模型 注意力机制 性能预测模型 计算机程序指令 序列 线性 性能监测数据 参数 样本 计算机程序产品 处理器 精度 电子设备 分词 标签 蒸馏
系统为您推荐了相关专利信息
1
模型训练方法、驾驶权分配方法、设备及存储介质
样本 模型训练方法 场景特征 权分配方法 动作预测模型
2
基于CauDformer模型的工业浓缩参数预测方法
参数预测方法 编码器模块 表达式 代表 数据嵌入
3
基于云计算的挡土墙三维设计决策支持系统及方法
挡土墙 决策支持方法 数据 标签 三维模型
4
基于多源信息融合的森林火源检测方法、系统和存储介质
多源信息融合 可见光图像 深度残差网络 实时数据采集 异常点
5
一种混合现实矿井通风设备维修指导方法
维修指导方法 矿井通风设备 历史维修数据 BERT模型 深度强化学习
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号