一种基于查询解耦和原型分类的通用文档图像分割方法

AITNT
正文
推荐专利
一种基于查询解耦和原型分类的通用文档图像分割方法
申请号:CN202510390289
申请日期:2025-03-31
公开号:CN119919946A
公开日期:2025-05-02
类型:发明专利
摘要
本发明涉及图像分割领域,提供一种基于查询解耦和原型分类的通用文档图像分割方法,包括:利用视觉骨架网络对输入文档图像提取多尺度视觉特征,并进行优化得到优化后的多尺度视觉特征;利用文本编码器将每类待分割区域类别的文字描述编码成语义查询向量,并随机初始化预设数量的实例查询向量;将优化后的多尺度视觉特征、语义查询向量以及实例查询向量输入混合查询解码器中得到更新后的语义查询向量和实例查询向量;利用更新后的语义查询向量和实例查询向量分别进行语义分割和实例分割,得到语义分割结果和实例分割结果。本发明不仅能处理多种类型文档图像上的多种分割任务,还能够以任意文档图像和分割任务提示为输入,输出相应的分割结果。
技术关键词
文档图像分割方法 语义 实例分割 交叉注意力机制 文本编码器 原型 混合多尺度 前馈神经网络 非暂态计算机可读存储介质 解码器 特征金字塔网络 图像分割装置 视觉特征提取 令牌
系统为您推荐了相关专利信息
1
基于6G插帧语义通信与信源信道联合编译码方法和系统
信道联合编译码 关键帧 语义 视频 编码
2
一种基于人工智能网页自动生成的方法及系统
网页框架 网页架构 机器学习算法 自然语言 网页模板
3
一种合同自动化处理方法、系统、电子设备及存储介质
智能匹配算法 逻辑 参数 自然语言 指令
4
特征筛选方法、特征筛选装置和特征筛选系统
特征筛选方法 深度学习模型 特征筛选系统 特征筛选装置 掩膜
5
实时语义分割视觉SLAM的方法和装置
SLAM系统 语义分割网络 动态场景 相机位姿估计 视觉
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号