摘要
本发明公开了一种基于语义通信的大语言模型推理调度方法和装置,包括:边缘设备通过联合轻量模型提取推理请求的语义信息后预测输出token长度并上传至大语言模型服务器;大语言模型服务器根据语义调度评分函数对等待请求排序,评分函数基于token长度、信道质量和历史重传次数动态加权计算,选取优先级最高的请求组并指示对应的边缘设备上传由联合轻量模型提取的推理请求的语义张量;大语言模型服务器接收语义张量后重构信息进行批次推理。本发明能有效提升推理系统在高并发环境下的吞吐能力,降低任务响应时延,增强边缘语义通信系统的稳定性与服务质量,对大语言模型在边缘计算与多用户语义通信场景下的部署具有广泛适用性与推广价值。
技术关键词
大语言模型
通用编码器
通信基站
语义向量
服务器
推理系统
分布式边缘
平均等待时间
信道
动态
重构
残差模块
调度装置
表达式
监控模块
策略
标签
系统为您推荐了相关专利信息
作业自动监控
起重小车
远程服务器
人机交互模块
距离传感器
智能穿戴设备
数据处理芯片
控制模组
温度补偿电路
深度学习服务器
计轴设备
信号系统
列车运行控制方法
位置管理服务器
惯性导航传感器