一种注意力迁移方法、数据处理方法和大语言模型

AITNT
正文
推荐专利
一种注意力迁移方法、数据处理方法和大语言模型
申请号:CN202510237970
申请日期:2025-02-28
公开号:CN120146154A
公开日期:2025-06-13
类型:发明专利
摘要
本发明实施例公开了一种注意力迁移方法、数据处理方法和大语言模型。通过获取预训练的教师模型和初始化的学生模型,所述初始化的学生模型包括第一注意力层、结构压缩层和多个第二注意力层,所述第一注意力层的参数与所述教师模型的第一层的注意力层的参数相同,所述第二注意力层的参数为初始化参数,获取训练样本和对应的标签信息,通过初始化的学生模型获取所述训练样本对应的预测信息,根据所述标签信息和所述预测信息对所述初始化参数进行优化以获取预训练的学生模型。由此,可以避免在注意力迁移过程中丢失信息,实现无损迁移,提升学生模型的性能。
技术关键词
注意力 参数 学生 计算机程序指令 数据处理方法 迁移方法 标签 教师 计算机程序产品 存储计算机程序 数据处理装置 大语言模型 处理器 矩阵 可读存储介质 存储器 电子设备 样本 标记
系统为您推荐了相关专利信息
1
一种基于人工智能的供热数据处理方法
传输路径 数据处理方法 直线 供热管道 信号增强器
2
激光雷达内参标定方法以及内参标定系统
激光雷达 内参标定方法 标定系统 方程 数据
3
一种基于改进极限学习机的棘轮状态预测方法
状态预测方法 极限学习机 工况参数 计算机程序代码 状态预测系统
4
一种基于控制反馈的虚拟热试验方法
石英灯管 加热面 仿真方法 柱面 点加热
5
一种无人机语音控制系统及方法
无人机地面控制 语音采集模块 无人机操作员 机载计算机 采集无人机
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号