摘要
本发明公开了一种基于知识蒸馏的语言模态去偏视觉问答方法,包括以下步骤:1)获取给定的一张图像和关于图像的一个问题;2)利用学生模型对所述问题和所述图像进行处理,获取所述问题的答案;其中,学生模型的获取过程如下:2.1)构建教师模型和学生模型;2.2)利用训练集对教师模型进行训练,其中,训练集数据包括图片、问题文本和答案文本;2.3)对学生模型进行训练;2.4)利用所述教师模型并基于设定的损失函数对所述学生模型进行知识蒸馏,固定教师模型的参数不更新,通过更新学生模型的参数来优化整个学习过程,获得训练完成的学生模型。本发明的方案通过引入一个教师模型,将其输出当作监督学生模型的软标签,可以避免了额外的数据标注。
技术关键词
视觉问答方法
学生
教师
模态特征
蒸馏
答案
训练集数据
词嵌入模型
文本编码器
图像
标签
处理器
图片
存储装置
参数
可读存储介质
因子
电子设备
系统为您推荐了相关专利信息
包装盒生产线
监测系统
变量
模切机
Softmax函数
实景三维重建方法
融合特征
多尺度特征提取
倾斜摄影数据
三维模型
智能编码方法
电子病历
智能编码装置
深度卷积生成对抗网络
多模态特征