一种基于自然语言描述的复杂场景视觉识别快速构建方法

正文

推荐专利

申请号：CN202510905189

申请日期：2025-07-01

公开号：CN120808107A

公开日期：2025-10-17

类型：发明专利

摘要

本申请提供了一种基于自然语言描述的复杂场景视觉识别快速构建方法，涉及计算机视觉与自然语言处理技术领域，所述方法包括：获取用户输入的自然语言描述信息；对所述自然语言描述信息进行语言解析及要素抽取，获得场景语义表；将所述场景语义表解耦为M个原子条件，获取原子指令集；利用视觉编码器对待识别图像进行视觉特征提取，生成图像特征向量；转化所述原子指令集为原子指令向量集，输出原子指令验证集；生成关系验证矩阵；基于所述原子指令验证集与关系验证矩阵执行全局逻辑表达式验证运算，输出综合置信度。解决了现有技术中存在解决语义理解深度不足、复杂场景理解局限、自适应能力欠缺的技术问题。

技术关键词

自然语言图像特征向量场景指令生成关系表达式视觉特征提取逻辑多层卷积神经网络条件依赖关系高层语义特征实体矩阵节点文本编码器遮挡关系关系建模

一种基于自然语言描述的复杂场景视觉识别快速构建方法

站点导航

APP 下载