摘要
本申请公开了一种文本推理方法、产品、设备及存储介质,涉及计算机技术领域,包括:判断当前待推理文本的文本长度是否超过预设长度,如果超过则通过文本生成序列长度预测模型预测当前待推理文本经过文本推理模型推理后输出的文本序列的长度,得到文本预测长度,并在文本预测长度大于或等于预设阈值时,对当前文本推理请求和文本预测长度较短的未处理文本推理请求进行组合,再将组合后请求调度至目标计算节点进行文本推理,这样一来,可以避免将多个输出长度较长的请求分配到同一个计算节点上,实现了负载均衡的对多个文本推理请求进行处理,从而有效降低了推理框架显存占用发生的概率,提高了文本推理的性能和效率。
技术关键词
文本推理方法
分布式服务器集群
节点
训练语言模型
融合策略
序列
键值
注意力机制
加速卡
可读存储介质
框架组合
存储计算机程序
计算机程序产品
解码
处理器
蒸馏
系统为您推荐了相关专利信息
主题关键词
金融交易平台
大语言模型
文本生成方法
子模块
预警方法
节点
配电网拓扑结构
状态实时监测
强化学习策略
北斗导航卫星
净化方法
通讯基站
环境感知数据
信号接收角度