一种大语言模型长上下文窗口拓展方法

正文

推荐专利

一种大语言模型长上下文窗口拓展方法

申请号：CN202510111440

申请日期：2025-01-23

公开号：CN120046696A

公开日期：2025-05-27

类型：发明专利

摘要

本发明涉及自然语言处理技术领域，尤其是涉及一种大语言模型长上下文窗口拓展方法，具体涉及一种基于旋转位置编码拓展改进和预训练方法改进的大模型长上下文窗口拓展方法，包括如下步骤：针对旋转位置编码参数的训练调优、长文本训练和短到长蒸馏的继续预训练方法。本发明提供的一种基于旋转位置编码拓展改进和预训练方法改进的大语言模型长上下文窗口拓展方法，在拓展上下文窗口的同时，更好保留原始模型的短文本能力。

技术关键词

位置编码技术注意力大语言模型预训练方法蒸馏参数文本自然语言教师学生样本矩阵序列阶段

系统为您推荐了相关专利信息

一种基于组网雷达多域特征融合的空间微动目标识别方法

组网雷达系统多域特征池化特征特征提取模块多普勒

低质量染色体图像分割增强系统

分割掩模染色体图像分割频域特征编码特征

基于多源检索及大语言模型的虚假新闻检测方法

知识图谱路径大语言模型实体三元组摘要

基于OCR技术的电力业务工单信息智能识别方法

信息智能识别方法业务工单编码向量词语序列

基于改进型条件对抗生成网络的Φ-OTDR光纤扰动样本扩充方法

条件对抗生成网络样本 Sigmoid函数 OTDR系统注意力

一种大语言模型长上下文窗口拓展方法

站点导航

APP 下载