大语言模型长文本外推方法、装置、电子设备及存储介质

正文

推荐专利

申请号：CN202510055799

申请日期：2025-01-14

公开号：CN120012924A

公开日期：2025-05-16

类型：发明专利

摘要

本发明提供一种大语言模型长文本外推方法、装置、电子设备及存储介质，涉及自然语言处理技术领域，获取预设长度的待处理文本；若预设长度大于初始大语言模型的训练文本的序列长度，则基于预设长度以及初始大语言模型的滑动窗口注意力机制的初始窗口尺寸，对滑动窗口注意力机制的初始位置编码进行扩展，并对初始窗口尺寸进行扩展，得到目标大语言模型；最后基于目标大语言模型，对待处理文本进行处理。通过对滑动窗口注意力机制的初始窗口尺寸和初始位置编码同步扩展，使目标大语言模型具备处理更长文本的能力。进而，通过目标大语言模型对待处理文本进行处理，可以保证处理效果，降低推理成本，且处理效果不受待处理文本的预设长度的限制。

技术关键词

大语言模型外推方法注意力机制文本滑动窗口编码尺寸非暂态计算机可读存储介质解码电子设备处理器扩展模块序列自然语言参数存储器阶段分段

系统为您推荐了相关专利信息

基于大语言模型的政务热线服务知识图谱构建方法及系统

大语言模型知识图谱构建方法政务实体语义关系关联分析方法

一种图像处理方法及装置

图像处理方法颅骨磁共振处理单元切片

一种基于知识图谱的心血管疾病诊断系统

心血管疾病诊断大语言模型医学命名实体节点自然语言

基于神经网络的电磁信号图像数据处理方法

信号数据处理方法装配部件装配机器人编码特征编码模块

智能陪练调整系统及方法

负荷队列 TOPSIS算法听力知识点标签

大语言模型长文本外推方法、装置、电子设备及存储介质

站点导航

APP 下载