摘要
本公开提供了一种深度学习推理平台及深度学习推理引擎的运行方法、系统。该深度学习推理引擎搭载在处理器中,该运行方法包括:加载训练完成的推理模型,建立张量缓存管理器,并预先分配输出张量;接收输入数据并获取输入数据对应的初始张量,对初始张量进行张量重塑得到目标维度的目标张量,将目标张量存储至张量缓存管理器的第一缓存变量中;调用第一缓存变量中的目标张量并对目标张量进行混合注意力计算,得到混合注意力计算结果;将混合注意力计算结果写入输出张量进行输出。本公开能够动态适配多步解码或高并发情形,能够适应多样化的文本、音频或其他序列数据等场景,使得深度学习推理引擎具有更高的通用性和可扩展性,提高系统性能。
技术关键词
缓存管理器
推理平台
变量
处理器
包装器
注意力机制
输出模块
数据
场景
计算机程序产品
矩阵
间距
可读存储介质
存储器
元素
序列
电子设备
内存
系统为您推荐了相关专利信息
认知训练方法
多模态生理
脑机接口
能力评估模型
多场景
电流连接器
建模方法
APDL语言
回归预测模型
三维建模软件
识别检测方法
识别检测系统
检测变电设备
注意力机制
聚类
单体电池
多维特征向量
充放电数据
储能设备
因子