基于知识蒸馏的语言模态去偏视觉问答方法

AITNT
正文
推荐专利
基于知识蒸馏的语言模态去偏视觉问答方法
申请号:CN202410921234
申请日期:2024-07-10
公开号:CN118885586A
公开日期:2024-11-01
类型:发明专利
摘要
本发明公开了一种基于知识蒸馏的语言模态去偏视觉问答方法,包括以下步骤:1)获取给定的一张图像和关于图像的一个问题;2)利用学生模型对所述问题和所述图像进行处理,获取所述问题的答案;其中,学生模型的获取过程如下:2.1)构建教师模型和学生模型;2.2)利用训练集对教师模型进行训练,其中,训练集数据包括图片、问题文本和答案文本;2.3)对学生模型进行训练;2.4)利用所述教师模型并基于设定的损失函数对所述学生模型进行知识蒸馏,固定教师模型的参数不更新,通过更新学生模型的参数来优化整个学习过程,获得训练完成的学生模型。本发明的方案通过引入一个教师模型,将其输出当作监督学生模型的软标签,可以避免了额外的数据标注。
技术关键词
视觉问答方法 学生 教师 模态特征 蒸馏 答案 训练集数据 词嵌入模型 文本编码器 图像 标签 处理器 图片 存储装置 参数 可读存储介质 因子 电子设备
系统为您推荐了相关专利信息
1
一种基于人工智能的包装盒生产线监测系统
包装盒生产线 监测系统 变量 模切机 Softmax函数
2
基于联邦跨模态特征对齐的安全隐私保护方法、装置、设备及介质
特征提取模型 客户端 隐私保护方法 跨模态 参数
3
基于联邦学习与自然语言处理的人才培养推荐方法
人才画像 多源异构数据 推荐方法 自然语言 学生
4
基于多源数据融合的倾斜摄影实景三维重建方法
实景三维重建方法 融合特征 多尺度特征提取 倾斜摄影数据 三维模型
5
电子病历智能编码方法和装置、系统、存储介质
智能编码方法 电子病历 智能编码装置 深度卷积生成对抗网络 多模态特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号