摘要
本发明涉及自然语言处理技术领域,尤其是涉及一种大语言模型长上下文窗口拓展方法,具体涉及一种基于旋转位置编码拓展改进和预训练方法改进的大模型长上下文窗口拓展方法,包括如下步骤:针对旋转位置编码参数的训练调优、长文本训练和短到长蒸馏的继续预训练方法。本发明提供的一种基于旋转位置编码拓展改进和预训练方法改进的大语言模型长上下文窗口拓展方法,在拓展上下文窗口的同时,更好保留原始模型的短文本能力。
技术关键词
位置编码技术
注意力
大语言模型
预训练方法
蒸馏
参数
文本
自然语言
教师
学生
样本
矩阵
序列
阶段
系统为您推荐了相关专利信息
组网雷达系统
多域特征
池化特征
特征提取模块
多普勒
条件对抗生成网络
样本
Sigmoid函数
OTDR系统
注意力