一种基于大语言模型的长序列处理方法、系统及介质

AITNT
正文
推荐专利
一种基于大语言模型的长序列处理方法、系统及介质
申请号:CN202510971888
申请日期:2025-07-15
公开号:CN120493873B
公开日期:2025-10-03
类型:发明专利
摘要
本发明涉及人工智能技术领域,尤其是指一种基于大语言模型的长序列处理方法、系统及介质,包括:将长序列作为训练样本输入参数冻结的大语言模型,经过一次前向传播和反向传播后,以嵌入层输出的令牌嵌入的梯度作为指标识别关键令牌,并利用无关令牌嵌入的梯度调整无关令牌嵌入,关键令牌嵌入不变,得到去噪后的令牌嵌入;解冻模型参数,将去噪后的令牌嵌入经过一次前向传播和反向传播,对模型参数进行更新,直到网络收敛;将待处理的长序列输入完成训练的大语言模型,得到响应结果。本发明有助于大语言模型在训练过程中高效而准确地学习提取关键令牌,有效抑制了长序列中的背景噪音,使得完成训练的大语言模型能够输出准确的响应结果。
技术关键词
令牌 大语言模型 序列 参数更新模块 可读存储介质 人工智能技术 字词 标签 识别模块 计算机 注意力 标识 索引 处理器 编码 指标 网络
系统为您推荐了相关专利信息
1
基于机器视觉的软包电池极耳精确定位裁切方法及系统
软包电池 三维网格模型 应力 裁切刀具 图像
2
基于大语言模型的Python依赖库API迁移方法
大语言模型 迁移方法 意图识别 结构化网页 搭建测试环境
3
基于多模态牙齿问题咨询的应答方法及装置
牙齿健康 交叉注意力机制 文本 大语言模型 多模态
4
燃气蒸汽联合循环机组IGV参与调频的模型预测控制器设计方法、设备和介质
子空间辨识方法 矩阵 模型预测控制器 状态空间模型 机组运行数据
5
备用机器人接替故障机器人继续配送办公物资的方法、装置、设备、存储介质和程序产品
故障机器人 智能配送技术 机器人控制模块 计算机程序产品 处理器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号