摘要
本发明涉及人工智能技术领域,公开了模型推理方法、装置、计算机设备及存储介质,方法包括:接收多个推理请求,推理请求包括提示词;为各推理请求分配局部过滤缓存空间,局部过滤缓存空间用于存储局部过滤缓存值;获取各推理请求的局部过滤缓存空间中的局部过滤缓存值,对局部过滤缓存值进行拼接,获得拼接序列;利用大语言模型基于各推理请求的提示词和拼接序列进行多次推理,获得各推理请求的推理结果;在每次推理结束后,对各推理请求的局部过滤缓存空间中存储的局部过滤缓存值进行更新,以基于更新后的局部过滤缓存值进行下一次推理。本发明在高并发场景下,能够准确对推理请求进行推理,确保了推理结果的准确性。
技术关键词
大语言模型
序列
推理方法
注意力
计算机设备
推理装置
可读存储介质
标记
人工智能技术
存储器
处理器
指令
模块
场景
系统为您推荐了相关专利信息
热阻抗
轻量化卷积神经网络
微波射频
指令优化
最佳参数组合
调制相位序列
雷达干扰方法
模拟退火算法
生成特征向量
波束
路基压实
差分隐私保护
压路机
人机交互界面显示
评估系统
LSTM神经网络
关联分析方法
语义
关联分析系统
文本主题词
故障预测方法
故障树分析法
锅炉受热面
故障预测系统
嵌入式采集设备