摘要
一种推理显存用预填充分段方法、系统、设备及介质,该方法包括:基于注意力机制的序列模型架构在预填充阶段将待输入的目标切分数据按序进行相同长度的切分;切分后生成输入的多段切分数据,将生成的多段切分数据按序依次输入完成目标切分数据的输入;其中,根据预填充后的前一切分数据按序依次更新后一切分数据在预填充前的缓存键值预填充后一切分数据;按序依次根据前一切分数据和后一切分数据的缓存键值生成目标切分数据的首个基本单元,直至多段切分数据生成目标切分数据输入的所有基本单元。本发明通过优化预填充阶段,采用切分相同长度的切分数据和编译技术提升超长文本在预填充阶段的处理速度,降低显存占用,降低超长文本处理的成本。
技术关键词
数据
键值
计算机可读指令
注意力机制
非暂时性计算机可读
序列
滑动窗口
分段系统
编译技术
阶段
模块
模型库
可读存储介质
处理器
电子设备
系统为您推荐了相关专利信息
虚拟交互设备
共享物理内存
访问控制权限
虚拟传感器组件
环形缓冲区