一种注意力迁移方法、数据处理方法和大语言模型

正文

推荐专利

申请号：CN202510237970

申请日期：2025-02-28

公开号：CN120146154A

公开日期：2025-06-13

类型：发明专利

摘要

本发明实施例公开了一种注意力迁移方法、数据处理方法和大语言模型。通过获取预训练的教师模型和初始化的学生模型，所述初始化的学生模型包括第一注意力层、结构压缩层和多个第二注意力层，所述第一注意力层的参数与所述教师模型的第一层的注意力层的参数相同，所述第二注意力层的参数为初始化参数，获取训练样本和对应的标签信息，通过初始化的学生模型获取所述训练样本对应的预测信息，根据所述标签信息和所述预测信息对所述初始化参数进行优化以获取预训练的学生模型。由此，可以避免在注意力迁移过程中丢失信息，实现无损迁移，提升学生模型的性能。

技术关键词

注意力参数学生计算机程序指令数据处理方法迁移方法标签教师计算机程序产品存储计算机程序数据处理装置大语言模型处理器矩阵可读存储介质存储器电子设备样本标记

系统为您推荐了相关专利信息

一种基于人工智能的供热数据处理方法

传输路径数据处理方法直线供热管道信号增强器

激光雷达内参标定方法以及内参标定系统

激光雷达内参标定方法标定系统方程数据

一种基于改进极限学习机的棘轮状态预测方法

状态预测方法极限学习机工况参数计算机程序代码状态预测系统

一种基于控制反馈的虚拟热试验方法

石英灯管加热面仿真方法柱面点加热

一种无人机语音控制系统及方法

无人机地面控制语音采集模块无人机操作员机载计算机采集无人机

一种注意力迁移方法、数据处理方法和大语言模型

站点导航

APP 下载