摘要
本发明公开了一种文本任务处理方法及其模型训练方法、设备、介质、产品,应用于人工智能技术领域。其中,方法包括获取微调文本数据集和预训练好的初始语言模型。按照多个频率基准值对各微调文本样本的位置编码信息维度进行划分,并对不同组的位置编码信息采用相匹配的插值方法进行插值处理,以得到具有处理目标长度文本数据的过渡语言模型。基于目标长度设置窗口标记长度参数值和最大允许距离参数值,并基于推理文本长度设置目标文本长度参数值,利用窗口掩码方法对过渡语言模型进行外推处理,得到文本任务处理模型。本发明可以解决相关技术由于失去对长文本全局理解的能力导致性能下降的问题,能够有效提高长文本任务的执行精度。
技术关键词
语言模型训练方法
位置编码信息
插值方法
标记
掩码方法
非易失性存储介质
频率
因子
网络结构
注意力
泛化方法
样本
训练文本数据
转换器
斜坡
人工智能技术
系统为您推荐了相关专利信息
关联分析方法
火烧
稳定同位素质谱仪
稳定同位素示踪
基因
岩溶地貌
地貌特征
图像分析模型
语义特征
图像分析方法
排放预测方法
时序
量子态
注意力机制
长短期记忆网络