摘要
本发明实施例公开了一种注意力迁移方法、数据处理方法和大语言模型。通过获取预训练的教师模型和初始化的学生模型,所述初始化的学生模型包括第一注意力层、结构压缩层和多个第二注意力层,所述第一注意力层的参数与所述教师模型的第一层的注意力层的参数相同,所述第二注意力层的参数为初始化参数,获取训练样本和对应的标签信息,通过初始化的学生模型获取所述训练样本对应的预测信息,根据所述标签信息和所述预测信息对所述初始化参数进行优化以获取预训练的学生模型。由此,可以避免在注意力迁移过程中丢失信息,实现无损迁移,提升学生模型的性能。
技术关键词
注意力
参数
学生
计算机程序指令
数据处理方法
迁移方法
标签
教师
计算机程序产品
存储计算机程序
数据处理装置
大语言模型
处理器
矩阵
可读存储介质
存储器
电子设备
样本
标记
系统为您推荐了相关专利信息
传输路径
数据处理方法
直线
供热管道
信号增强器
状态预测方法
极限学习机
工况参数
计算机程序代码
状态预测系统
无人机地面控制
语音采集模块
无人机操作员
机载计算机
采集无人机