摘要
本发明提供一种大语言模型长文本外推方法、装置、电子设备及存储介质,涉及自然语言处理技术领域,获取预设长度的待处理文本;若预设长度大于初始大语言模型的训练文本的序列长度,则基于预设长度以及初始大语言模型的滑动窗口注意力机制的初始窗口尺寸,对滑动窗口注意力机制的初始位置编码进行扩展,并对初始窗口尺寸进行扩展,得到目标大语言模型;最后基于目标大语言模型,对待处理文本进行处理。通过对滑动窗口注意力机制的初始窗口尺寸和初始位置编码同步扩展,使目标大语言模型具备处理更长文本的能力。进而,通过目标大语言模型对待处理文本进行处理,可以保证处理效果,降低推理成本,且处理效果不受待处理文本的预设长度的限制。
技术关键词
大语言模型
外推方法
注意力机制
文本
滑动窗口
编码
尺寸
非暂态计算机可读存储介质
解码
电子设备
处理器
扩展模块
序列
自然语言
参数
存储器
阶段
分段
系统为您推荐了相关专利信息
大语言模型
知识图谱构建方法
政务
实体语义关系
关联分析方法
心血管疾病诊断
大语言模型
医学命名实体
节点
自然语言
信号数据处理方法
装配部件
装配机器人
编码特征
编码模块