一种用于增强大语言模型长文处理能力的训练方法和系统

AITNT
正文
推荐专利
一种用于增强大语言模型长文处理能力的训练方法和系统
申请号:CN202410810068
申请日期:2024-06-21
公开号:CN118643883A
公开日期:2024-09-13
类型:发明专利
摘要
本发明公开了一种用于增强大语言模型长文处理能力的训练方法和系统,方法包括以下步骤:在对预训练大语言模型利用短文进行继续训练的每个训练步前,生成短文输入序列原位置的偏移量和原位置的缩放系数;在每步继续训练过程中,利用偏移量和缩放系数对原位置进行计算得到新位置及其新位置编码;将每步生成的新位置编码应用在预训练大语言模型的输入和中间状态上并完成每步继续训练;以每个训练步进行迭代并完成预训练大语言模型的继续训练后得到长文处理性能增强的大语言模型。本发明能够使继续训练后得到的大语言模型能够显著提高长文处理能力和上下文拓展能力,应用于智能问答、摘要生成、代码生成和长文分类等任务和领域。
技术关键词
大语言模型 编码 缩放参数 存储计算机程序 序列 模块 训练设备 训练系统 自然语言 存储器 处理器 摘要
系统为您推荐了相关专利信息
1
基于深度卷积神经网络和软件无线电的自适应信号干扰系统
深度卷积神经网络 软件无线电 信号干扰系统 多通道数字下变频系统 多通道数字上变频系统
2
一种基于计算机视觉的农业固废成分分析方法及系统
视觉特征 特征数据库 农业 成分分析方法 颜色
3
一种分布漂移自适应的时间序列预测模型生成方法
时间序列预测模型 样本 生成方法 多层感知机 多头注意力机制
4
一种基于卫星遥感的农业保险数据采集管理系统
数据采集管理系统 遥感影像数据 数据采集模块 数据管理模块 农业
5
基于神经网络的电磁信号图像数据处理方法
信号数据处理方法 装配部件 装配机器人 编码特征 编码模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号