摘要
本发明涉及一种大语言模型的流式处理系统和方法,在离线环境中,通过大语言模型模块调用大语言模型架构以按批处理模式运行,而在在线环境中则以流式模型参数作为大语言模型架构的模型参数,并调用大语言模型架构以通过令牌解耦缓存机制实现流式推理,还通过所设置的模型参数优化模块采用流式注意力掩码机制对大语言模型架构进行参数优化,以动态调整大语言模型架构的注意力范围,令大语言模型架构仅关注当前可用输入和上下文,获得流式模型参数,确保大语言模型模块达到在批处理模式和流式模式之间的可扩展性要求,且计算成本较低。
技术关键词
大语言模型
注意力
令牌
掩码矩阵
缓存机制
参数
代表
编码
转换器架构
函数式
模块
数值
模式
数据格式
离线
动态
在线
系统为您推荐了相关专利信息
INS组合导航
融合定位方法
神经网络模型
车辆转向状态
级联
高频特征
可见光图像
融合方法
注意力机制
融合特征
建筑服务平台
机器学习算法
功能模块
化建模技术
自然语言
大语言模型
模板
日志解析
生成方法
计算机可执行指令
锂电池管理方法
编码向量
状态监测数据
序列
时序