摘要
本申请提出了一种基于RWKV架构的端侧模型推理方法、装置、电子设备及存储介质,包括:获取目标对象的目标输入请求,将目标输入请求转换为目标模型输入数据;在预设的状态存储空间中加载目标输入请求对应的历史推理状态;根据终端设备的硬件平台类型确定对应的RWKV核心算子;基于RWKV核心算子,对目标模型输入数据以及历史推理状态执行推理计算,得到输出令牌序列;其中,推理计算过程中,将大语言模型的实时推理状态保存在预设的状态加速器内存中进行复用;将输出令牌序列转换为文本格式并进行输出;根据推理计算后的实时推理状态更新历史推理状态。本申请能够针对RWKV架构的大语言模型进行计算优化和硬件加速,从而在端侧提高RWKV架构模型的推理性能。
技术关键词
令牌
硬件平台
推理方法
终端设备
核心
状态更新
内存
节点
序列
前缀树结构
加速器
编码器
数据
电子设备
推理装置
多模态
音频特征
处理器
对象
采样器
系统为您推荐了相关专利信息
水印算法
SM2签名算法
保护方法
密钥管理
身份