摘要
本发明公开了一种用于增强大语言模型长文处理能力的训练方法和系统,方法包括以下步骤:在对预训练大语言模型利用短文进行继续训练的每个训练步前,生成短文输入序列原位置的偏移量和原位置的缩放系数;在每步继续训练过程中,利用偏移量和缩放系数对原位置进行计算得到新位置及其新位置编码;将每步生成的新位置编码应用在预训练大语言模型的输入和中间状态上并完成每步继续训练;以每个训练步进行迭代并完成预训练大语言模型的继续训练后得到长文处理性能增强的大语言模型。本发明能够使继续训练后得到的大语言模型能够显著提高长文处理能力和上下文拓展能力,应用于智能问答、摘要生成、代码生成和长文分类等任务和领域。
技术关键词
大语言模型
编码
缩放参数
存储计算机程序
序列
模块
训练设备
训练系统
自然语言
存储器
处理器
摘要
系统为您推荐了相关专利信息
深度卷积神经网络
软件无线电
信号干扰系统
多通道数字下变频系统
多通道数字上变频系统
时间序列预测模型
样本
生成方法
多层感知机
多头注意力机制
数据采集管理系统
遥感影像数据
数据采集模块
数据管理模块
农业
信号数据处理方法
装配部件
装配机器人
编码特征
编码模块