基于描述文本生成的缺失多标签图像识别方法和装置

正文

推荐专利

申请号：CN202511196536

申请日期：2025-08-26

公开号：CN120708227A

公开日期：2025-09-26

类型：发明专利

摘要

本申请涉及一种基于描述文本生成的缺失多标签图像识别方法和装置，该方法通过将缺失多标签图像输入初始预测模型的文本生成分支，输出自然语言描述文本；将自然语言描述文本输入初始预测模型的标签预测分支，输出预测伪标签；预测伪标签用于补齐缺失多标签图像的标签，得到伪真实标签，将伪真实标签作为训练样本，优化初始预测模型的参数，得到目标预测模型；将待识别图像输入至目标预测模型中进行标签预测，输出待识别图像的预测标签集，解决了缺失多标签图像识别性能较差的问题，通过为图像生成自然语言描述并对自然语言描述进行分析，获取到更多的潜在语义信息，从而弥补标签信息的不足，提高模型的稳定性和识别精度。

技术关键词

多标签图像文本分支卷积网络模型多模态语义词典多层次生成自然语言图像识别装置实体跨模态解析器模型训练模块参数

基于描述文本生成的缺失多标签图像识别方法和装置

站点导航

APP 下载