摘要
本发明提供带噪多模态开放词汇视觉样本分类方法及系统,包括:将视觉样本编码为信息特征;将带噪文本信息编码为信息特征;根据视觉特征与带噪文本特征对视觉样本进行分类;基于预设词库,提出带噪文本的候选文本;根据候选文本与带噪文本的相似度计算单模态权重;根据候选文本特征与带噪文本对应视觉样本信息特征的相似度计算跨模态权重,获得最终权重;根据最终权重选出最优候选文本,并作为新的带噪文本,反复迭代直至收敛。本发明能够增强多模态视觉样本分类方法在噪声环境下的鲁棒性:通过单模态和跨模态信息优势互补,准确地筛选出候选去噪文本;通过反复迭代,优化去噪文本筛选的准确性,实现更精确的带噪多模态开放词汇视觉样本分类。
技术关键词
样本分类方法
跨模态
视觉特征编码
样本分类系统
网络
文本信息提取
模块
编辑
注意力
信息编码
代表
处理器
多模态
存储器
鲁棒性