基于WebGPU的Web大语言模型推理加速优化方法和装置

正文

推荐专利

申请号：CN202411908417

申请日期：2024-12-24

公开号：CN119338016B

公开日期：2025-04-04

类型：发明专利

摘要

本申请提供了一种基于WebGPU的Web大语言模型推理加速优化方法和装置，包括：基于目标用户输入的第一文本，生成多个第一推理词元，确定各个第一推理词元分别对应的第一推理算子，生成各个第一推理算子分别对应的第一计算管线，在得到至少一个第一计算管线的情况下，持续将第一计算管线输入WebGPU应用程序，得到WebGPU应用程序持续输出的第一推理文本，基于WebGPU应用程序输出第一推理文本的先后顺序，将第一推理文本进行组合，得到目标推理文本，能够使生成计算管线的过程和得到第一推理文本的过程并行执行，一定程度上可以提升Web大语言模型对WebGPU计算资源的使用率，缩短了推理任务的执行时间，从而可以提升大语言模型的推理效率。

技术关键词

文本资源大语言模型组合模块优化装置输入模块逻辑编码解码

系统为您推荐了相关专利信息

一种基于监控视频的高速公路交通事故分阶段发现方法

高速公路交通事故车辆运行轨迹视频行人数量分阶段

一种针对大模型生成文本的水印嵌入、检测方法及装置

令牌伪随机数序列大语言模型密钥伪随机数生成器

基于电话场景的告警方法及告警信息播报机器人

监控告警平台运维终端消息告警方法

一种基于大语言模型的AI直播方法及系统

大语言模型文本直播方法语音时间段

一种电网营业厅智能服务优化方法及系统

电网营业厅服务优化方法数据画像业务办理数据需求预测模型

基于WebGPU的Web大语言模型推理加速优化方法和装置

站点导航

APP 下载