摘要
本申请涉及一种面向供电服务指挥大模型的上下文长度扩展方法及系统,包括以下步骤:采用正余弦函数将位置编码添加到输入词嵌入中,使大模型考虑词序信息;在多头自注意力机制中,将每个位置的编码向量进行旋转变换,使用旋转变换后的位置信息计算注意力得分,更好地捕捉长距离依赖关系;利用神经切核特性对旋转位置编码进行插值,使用若干数据对语义大模型进行微调,扩展上下文窗口,减少高频信息损失;构建供电服务指令数据集,专家检查修正和拓展指令数据集,使用供电服务指令数据集对改进后的语义大模型进行指令微调,使语义大模型适应拓展后的上下文长度。
技术关键词
扩展系统
注意力机制
语义
编码向量
缩放技术
指令
数据
神经网络模型
编码模块
文本
处理器
序列
定义
比率
可读存储介质
关系
存储器