一种用于增强大语言模型长文处理能力的训练方法和系统

正文

推荐专利

申请号：CN202410810068

申请日期：2024-06-21

公开号：CN118643883A

公开日期：2024-09-13

类型：发明专利

摘要

本发明公开了一种用于增强大语言模型长文处理能力的训练方法和系统，方法包括以下步骤：在对预训练大语言模型利用短文进行继续训练的每个训练步前，生成短文输入序列原位置的偏移量和原位置的缩放系数；在每步继续训练过程中，利用偏移量和缩放系数对原位置进行计算得到新位置及其新位置编码；将每步生成的新位置编码应用在预训练大语言模型的输入和中间状态上并完成每步继续训练；以每个训练步进行迭代并完成预训练大语言模型的继续训练后得到长文处理性能增强的大语言模型。本发明能够使继续训练后得到的大语言模型能够显著提高长文处理能力和上下文拓展能力，应用于智能问答、摘要生成、代码生成和长文分类等任务和领域。

技术关键词

大语言模型编码缩放参数存储计算机程序序列模块训练设备训练系统自然语言存储器处理器摘要

系统为您推荐了相关专利信息

基于深度卷积神经网络和软件无线电的自适应信号干扰系统

深度卷积神经网络软件无线电信号干扰系统多通道数字下变频系统多通道数字上变频系统

一种基于计算机视觉的农业固废成分分析方法及系统

视觉特征特征数据库农业成分分析方法颜色

一种分布漂移自适应的时间序列预测模型生成方法

时间序列预测模型样本生成方法多层感知机多头注意力机制

一种基于卫星遥感的农业保险数据采集管理系统

数据采集管理系统遥感影像数据数据采集模块数据管理模块农业

基于神经网络的电磁信号图像数据处理方法

信号数据处理方法装配部件装配机器人编码特征编码模块

一种用于增强大语言模型长文处理能力的训练方法和系统

站点导航

APP 下载