模型蒸馏方法,装置、设备及存储介质

AITNT
正文
推荐专利
模型蒸馏方法,装置、设备及存储介质
申请号:CN202410804338
申请日期:2024-06-20
公开号:CN118643894A
公开日期:2024-09-13
类型:发明专利
摘要
本公开提供了模型蒸馏方法,装置、设备及存储介质,涉及计算机技术领域,尤其涉及模型训练、知识蒸馏、大语言模型技术领域。具体实现方案为:将第一训练数据集中的同一批训练数据分别输入第一模型、第二模型、第三模型和学生模型;根据第一模型、第二模型以及第三模型三者输出的预测结果,确定目标训练结果;以及根据学生模型的预测结果与目标训练结果之间的损失值,对学生模型进行训练,以得到用于执行目标自然语言处理任务的学生模型。根据本公开的方案,可以有效地降低了知识蒸馏的训练成本和计算资源消耗,并显著提升蒸馏训练效率,减少了对服务器计算资源的占用。
技术关键词
学生 模型蒸馏方法 自然语言 子模块 文本 问答系统 数据 信息检索 大语言模型 计算机程序产品 蒸馏装置 处理器通信 摘要 指令 输入模块 参数
系统为您推荐了相关专利信息
1
基于大模型的层归一化缩放方法、装置、设备及介质
深度神经网络模型 缩放方法 文本 数据 缩放特征
2
一种智能匹配停送电措施的电网调度操作票校核方法
大语言模型 校核方法 实体 文本段落 措施
3
一种基于大模型驱动的三维模型自适应轻量化方法及系统
三维模型轻量化 轻量化方法 子模块 渲染优化方法 结构优化方法
4
一种基于AI大语言模型的多模态电力知识库构建方法及检索方法
知识库构建方法 视频画面数据 图像画面数据 文本 电力
5
一种语音质检方法、装置、计算机设备及存储介质
语音质检方法 情绪识别模型 质检模型 多模态特征融合 计算机可读指令
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号