摘要
本发明涉及人工智能技术领域,尤其是指一种基于大语言模型的长序列处理方法、系统及介质,包括:将长序列作为训练样本输入参数冻结的大语言模型,经过一次前向传播和反向传播后,以嵌入层输出的令牌嵌入的梯度作为指标识别关键令牌,并利用无关令牌嵌入的梯度调整无关令牌嵌入,关键令牌嵌入不变,得到去噪后的令牌嵌入;解冻模型参数,将去噪后的令牌嵌入经过一次前向传播和反向传播,对模型参数进行更新,直到网络收敛;将待处理的长序列输入完成训练的大语言模型,得到响应结果。本发明有助于大语言模型在训练过程中高效而准确地学习提取关键令牌,有效抑制了长序列中的背景噪音,使得完成训练的大语言模型能够输出准确的响应结果。
技术关键词
令牌
大语言模型
序列
参数更新模块
可读存储介质
人工智能技术
字词
标签
识别模块
计算机
注意力
标识
索引
处理器
编码
指标
网络
系统为您推荐了相关专利信息
大语言模型
迁移方法
意图识别
结构化网页
搭建测试环境
牙齿健康
交叉注意力机制
文本
大语言模型
多模态
子空间辨识方法
矩阵
模型预测控制器
状态空间模型
机组运行数据
故障机器人
智能配送技术
机器人控制模块
计算机程序产品
处理器