基于知识蒸馏的语言模态去偏视觉问答方法

正文

推荐专利

基于知识蒸馏的语言模态去偏视觉问答方法

申请号：CN202410921234

申请日期：2024-07-10

公开号：CN118885586A

公开日期：2024-11-01

类型：发明专利

摘要

本发明公开了一种基于知识蒸馏的语言模态去偏视觉问答方法，包括以下步骤：1)获取给定的一张图像和关于图像的一个问题；2)利用学生模型对所述问题和所述图像进行处理，获取所述问题的答案；其中，学生模型的获取过程如下：2.1)构建教师模型和学生模型；2.2)利用训练集对教师模型进行训练，其中，训练集数据包括图片、问题文本和答案文本；2.3)对学生模型进行训练；2.4)利用所述教师模型并基于设定的损失函数对所述学生模型进行知识蒸馏，固定教师模型的参数不更新，通过更新学生模型的参数来优化整个学习过程，获得训练完成的学生模型。本发明的方案通过引入一个教师模型，将其输出当作监督学生模型的软标签，可以避免了额外的数据标注。

技术关键词

视觉问答方法学生教师模态特征蒸馏答案训练集数据词嵌入模型文本编码器图像标签处理器图片存储装置参数可读存储介质因子电子设备

系统为您推荐了相关专利信息

一种基于人工智能的包装盒生产线监测系统

包装盒生产线监测系统变量模切机 Softmax函数

基于联邦跨模态特征对齐的安全隐私保护方法、装置、设备及介质

特征提取模型客户端隐私保护方法跨模态参数

基于联邦学习与自然语言处理的人才培养推荐方法

人才画像多源异构数据推荐方法自然语言学生

基于多源数据融合的倾斜摄影实景三维重建方法

实景三维重建方法融合特征多尺度特征提取倾斜摄影数据三维模型

电子病历智能编码方法和装置、系统、存储介质

智能编码方法电子病历智能编码装置深度卷积生成对抗网络多模态特征

基于知识蒸馏的语言模态去偏视觉问答方法

站点导航

APP 下载