一种大语言模型长上下文窗口拓展方法

AITNT
正文
推荐专利
一种大语言模型长上下文窗口拓展方法
申请号:CN202510111440
申请日期:2025-01-23
公开号:CN120046696A
公开日期:2025-05-27
类型:发明专利
摘要
本发明涉及自然语言处理技术领域,尤其是涉及一种大语言模型长上下文窗口拓展方法,具体涉及一种基于旋转位置编码拓展改进和预训练方法改进的大模型长上下文窗口拓展方法,包括如下步骤:针对旋转位置编码参数的训练调优、长文本训练和短到长蒸馏的继续预训练方法。本发明提供的一种基于旋转位置编码拓展改进和预训练方法改进的大语言模型长上下文窗口拓展方法,在拓展上下文窗口的同时,更好保留原始模型的短文本能力。
技术关键词
位置编码技术 注意力 大语言模型 预训练方法 蒸馏 参数 文本 自然语言 教师 学生 样本 矩阵 序列 阶段
系统为您推荐了相关专利信息
1
一种基于组网雷达多域特征融合的空间微动目标识别方法
组网雷达系统 多域特征 池化特征 特征提取模块 多普勒
2
低质量染色体图像分割增强系统
分割掩模 染色体 图像分割 频域特征 编码特征
3
基于多源检索及大语言模型的虚假新闻检测方法
知识图谱路径 大语言模型 实体 三元组 摘要
4
基于OCR技术的电力业务工单信息智能识别方法
信息智能识别方法 业务工单 编码向量 词语 序列
5
基于改进型条件对抗生成网络的Φ-OTDR光纤扰动样本扩充方法
条件对抗生成网络 样本 Sigmoid函数 OTDR系统 注意力
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号