一种带噪多模态开放词汇视觉样本分类方法及系统

正文

推荐专利

申请号：CN202410813965

申请日期：2024-06-24

公开号：CN118656507A

公开日期：2024-09-17

类型：发明专利

摘要

本发明提供带噪多模态开放词汇视觉样本分类方法及系统，包括：将视觉样本编码为信息特征；将带噪文本信息编码为信息特征；根据视觉特征与带噪文本特征对视觉样本进行分类；基于预设词库，提出带噪文本的候选文本；根据候选文本与带噪文本的相似度计算单模态权重；根据候选文本特征与带噪文本对应视觉样本信息特征的相似度计算跨模态权重，获得最终权重；根据最终权重选出最优候选文本，并作为新的带噪文本，反复迭代直至收敛。本发明能够增强多模态视觉样本分类方法在噪声环境下的鲁棒性：通过单模态和跨模态信息优势互补，准确地筛选出候选去噪文本；通过反复迭代，优化去噪文本筛选的准确性，实现更精确的带噪多模态开放词汇视觉样本分类。

技术关键词

样本分类方法跨模态视觉特征编码样本分类系统网络文本信息提取模块编辑注意力信息编码代表处理器多模态存储器鲁棒性

一种带噪多模态开放词汇视觉样本分类方法及系统

站点导航

APP 下载