摘要
本发明总体涉及基于特定计算模型的计算机系统,具体涉及语言推理服务器、用于语言推理的方法、用于视觉语言大模型推理的系统、介质和产品。一种语言推理服务器包括计算资源、大语言模型、缓存池和任务调度组件。任务调度组件响应于检测到大语言模型需要执行与第一词嵌入和语言要素相关联的语言推理的第一部分时,基于第一请求标识来检查缓存映射字典,基于检查的结果,选择性地从缓存池加载第一词嵌入,并选择性地指示大语言模型调用计算资源来执行语言推理任务的第一部分。其中,大语言模型执行该第一部分与视觉服务器执行视觉编码计算的至少部分地同时进行。一些实施例提高了系统吞吐量,并降低了系统时延。
技术关键词
推理服务器
大语言模型
任务调度
采样率
采样模块
视觉
字典
标识
图像
图形处理单元
位置编码信息
教师系统
系统吞吐量
内存
图文
计算机程序产品
计算机系统
蒸馏
系统为您推荐了相关专利信息
大语言模型
推荐算法
深度优先搜索算法
节点
时效性
散射介质成像方法
注意力机制
动态
神经网络模型
申请方法