摘要
本公开涉及基于transformer模型的方法和系统,其中涉及弹性transformer服务系统,在本文中被称为在线词元自适应系统(OTAS),其适应具有波动的查询负载的多样化的用户请求,同时优化输出准确性和运行时延迟。OTAS使用词元自适应技术,该技术涉及添加提示词元以提高准确性和去除冗余词元以加速推理。为了处理波动的查询负载和多样化的用户请求,OTAS还面向在线词元自适应设计应用感知的选择性分批处理算法。在系统服务过程中,OTAS首先将传入的具有类似需求的查询分批处理,以提高入口吞吐量。然后,为了在词元增长的开销和提高准确性的潜力之间进行平衡,OTAS通过求解优化问题来自适应地调整词元执行设置。
技术关键词
变换器
计算机系统
服务系统
样本
数据
处理器
编码器
队列
在线
定义
度量
冗余
算法
入口
系统为您推荐了相关专利信息
震源定位方法
信噪比
微震震源
筛选算法
微震事件
动态时间规整算法
贝叶斯网络模型
服务端
客户端
追踪方法
膀胱癌诊断试剂盒
生物标志物表达
膀胱癌患者
诊断性生物标志物
早期临床诊断