一种基于大语言模型的长序列处理方法、系统及介质

正文

推荐专利

申请号：CN202510971888

申请日期：2025-07-15

公开号：CN120493873B

公开日期：2025-10-03

类型：发明专利

摘要

本发明涉及人工智能技术领域，尤其是指一种基于大语言模型的长序列处理方法、系统及介质，包括：将长序列作为训练样本输入参数冻结的大语言模型，经过一次前向传播和反向传播后，以嵌入层输出的令牌嵌入的梯度作为指标识别关键令牌，并利用无关令牌嵌入的梯度调整无关令牌嵌入，关键令牌嵌入不变，得到去噪后的令牌嵌入；解冻模型参数，将去噪后的令牌嵌入经过一次前向传播和反向传播，对模型参数进行更新，直到网络收敛；将待处理的长序列输入完成训练的大语言模型，得到响应结果。本发明有助于大语言模型在训练过程中高效而准确地学习提取关键令牌，有效抑制了长序列中的背景噪音，使得完成训练的大语言模型能够输出准确的响应结果。

技术关键词

令牌大语言模型序列参数更新模块可读存储介质人工智能技术字词标签识别模块计算机注意力标识索引处理器编码指标网络

系统为您推荐了相关专利信息

基于机器视觉的软包电池极耳精确定位裁切方法及系统

软包电池三维网格模型应力裁切刀具图像

基于大语言模型的Python依赖库API迁移方法

大语言模型迁移方法意图识别结构化网页搭建测试环境

基于多模态牙齿问题咨询的应答方法及装置

牙齿健康交叉注意力机制文本大语言模型多模态

燃气蒸汽联合循环机组IGV参与调频的模型预测控制器设计方法、设备和介质

子空间辨识方法矩阵模型预测控制器状态空间模型机组运行数据

备用机器人接替故障机器人继续配送办公物资的方法、装置、设备、存储介质和程序产品

故障机器人智能配送技术机器人控制模块计算机程序产品处理器

一种基于大语言模型的长序列处理方法、系统及介质

站点导航

APP 下载