摘要
本申请提供了一种基于自然语言描述的复杂场景视觉识别快速构建方法,涉及计算机视觉与自然语言处理技术领域,所述方法包括:获取用户输入的自然语言描述信息;对所述自然语言描述信息进行语言解析及要素抽取,获得场景语义表;将所述场景语义表解耦为M个原子条件,获取原子指令集;利用视觉编码器对待识别图像进行视觉特征提取,生成图像特征向量;转化所述原子指令集为原子指令向量集,输出原子指令验证集;生成关系验证矩阵;基于所述原子指令验证集与关系验证矩阵执行全局逻辑表达式验证运算,输出综合置信度。解决了现有技术中存在解决语义理解深度不足、复杂场景理解局限、自适应能力欠缺的技术问题。
技术关键词
自然语言
图像特征向量
场景
指令
生成关系
表达式
视觉特征提取
逻辑
多层卷积神经网络
条件依赖关系
高层语义特征
实体
矩阵
节点
文本编码器
遮挡关系
关系建模