摘要
本发明公开了一种基于属性驱动融合的文本引导知识蒸馏方法,该方法首先构建多模态数据集以及各模态的硬属性字符串,将多模态数据集和硬属性字符串输入到属性驱动的跨模态动态融合模块中,实现多模态图像自适应融合。然后基于硬属性字符串组合生成可学习交替提示文本序列,经由多模态大模型文本编码器及多层感知机,对融合后的图像特征进行特征调制。最后基于以上融合及调制特征训练教师模型,并指导学生模型完成知识蒸馏。本发明有效提升教师模型构建特征的鲁棒性及其所传递知识的全面性,显著增强学生模型的学习效率、泛化能力及其在多噪声干扰复杂实际环境下的表现。
技术关键词
知识蒸馏方法
多模态图像数据
融合特征
浅层特征提取
文本编码器
对象主体
学生
多层感知机
预测类别
教师
显著性检测算法
特征加权融合
通道
个性化特征
边缘检测算法
调制特征
系统为您推荐了相关专利信息
融合特征
图像生成器
图像结构
对抗性
医疗信息技术
焊接视觉
焊接缺陷检测
掩模
文本编码器
图像编码器