摘要
本发明公开了一种应答信息生成方法、设备、介质及计算机程序产品,涉及人工智能技术领域,针对预训练语言模型的并行推理计算的一个批次中,根据所在设备执行预填充任务的算力利用率确定预填充任务的词元预算数量和解码任务的词元预算数量,使解码任务的词元预算数量占比与预填充任务的算力利用率成负相关,根据该根据词元预算数量将对应的待处理序列输入预训练语言模型进行并行推理计算,使得并行推理计算获得吞吐量和延迟的均衡,从而可以解决相关技术中并行推理调度中存在的设备压力与生成性能矛盾的问题,达到提升预训练语言模型的并行推理性能的技术效果,提升了人工智能问答任务的执行性能。
技术关键词
信息生成方法
预训练语言模型
解码
序列
内存
计算机程序产品
键值
可读存储介质
存储计算机程序
人工智能技术
处理器
矩阵
散热风扇
电子设备
分块
存储器
损耗
指标
系统为您推荐了相关专利信息
编码图像数据
信息传输方法
加密图像数据
解密图像
信息传输装置
实时操作系统
人机界面
国产操作系统
软件
计算机人机交互
电解水制氢系统
智能电源模块
阴离子交换膜
碱性电解槽
激光气体分析仪