摘要
本申请提供了一种基于WebGPU的Web大语言模型推理加速优化方法和装置,包括:基于目标用户输入的第一文本,生成多个第一推理词元,确定各个第一推理词元分别对应的第一推理算子,生成各个第一推理算子分别对应的第一计算管线,在得到至少一个第一计算管线的情况下,持续将第一计算管线输入WebGPU应用程序,得到WebGPU应用程序持续输出的第一推理文本,基于WebGPU应用程序输出第一推理文本的先后顺序,将第一推理文本进行组合,得到目标推理文本,能够使生成计算管线的过程和得到第一推理文本的过程并行执行,一定程度上可以提升Web大语言模型对WebGPU计算资源的使用率,缩短了推理任务的执行时间,从而可以提升大语言模型的推理效率。
技术关键词
文本
资源
大语言模型
组合模块
优化装置
输入模块
逻辑
编码
解码
系统为您推荐了相关专利信息
高速公路交通事故
车辆运行轨迹
视频
行人数量
分阶段
令牌
伪随机数序列
大语言模型
密钥
伪随机数生成器
电网营业厅
服务优化方法
数据画像
业务办理数据
需求预测模型