摘要
本发明涉及人工智能技术领域,公开了模型推理方法、装置、计算机设备及存储介质,方法包括:接收多个推理请求,推理请求包括提示词;为各推理请求分配局部过滤缓存空间,局部过滤缓存空间用于存储局部过滤缓存值;获取各推理请求的局部过滤缓存空间中的局部过滤缓存值,对局部过滤缓存值进行拼接,获得拼接序列;利用大语言模型基于各推理请求的提示词和拼接序列进行多次推理,获得各推理请求的推理结果;在每次推理结束后,对各推理请求的局部过滤缓存空间中存储的局部过滤缓存值进行更新,以基于更新后的局部过滤缓存值进行下一次推理。本发明在高并发场景下,能够准确对推理请求进行推理,确保了推理结果的准确性。
技术关键词
大语言模型
序列
推理方法
注意力
计算机设备
推理装置
可读存储介质
标记
人工智能技术
存储器
处理器
指令
模块
场景
系统为您推荐了相关专利信息
身份验证信息
大语言模型
自然语言
模版
生成方法系统
应急预案生成方法
多源异构数据融合
融合规则
气象卫星遥感数据
物联网传感器数据
巡检计划
换电站设备
智能运维方法
平台
工单管理